Extraction de fragments syntaxiques en français à partir d'une mesure d'autonomie basée sur l'entropie
Marine Courtin
Résumé : Dans cet article nous nous intéressons à la prédiction du caractère syntaxique ou non d’une séquence de tokens dans des corpus du français. En particulier, nous comparons une méthode d’extraction de fragments syntaxiques identifiés au moyen d’une mesure d’autonomie basée sur l’entropie à une méthode de référence qui extrait des fragments aléatoires. Les résultats semblent indiquer que les fragments ainsi extraits sont bien plus souvent des unités syntaxiques que les fragments aléatoires. Une telle méthode pourrait être utilisée dans des travaux ultérieurs afin de proposer une induction non-supervisée de structures de dépendances syntaxiques.
Mots clés : fragments syntaxiques, autonomie, analyse syntaxique non-supervisée.