talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Étiquetage morpho-syntaxique pour des mots nouveaux

Ingrid Falk, Delphine Bernhard, Christophe Gérard, Romain Potier-Ferry

Résumé : Les outils d’étiquetage automatique sont plus ou moins robustes en ce qui concerne l’étiquetage de mots inconnus, non rencontrés dans le corpus d’apprentissage. Il est important de connaître de manière précise la performance de ces outils lorsqu’on cible plus particulièrement l’étiquetage de néologismes formels. En effet, la catégorie grammaticale constitue un critère important à la fois pour leur identification et leur documentation. Nous présentons une évaluation et une comparaison de 7 étiqueteurs morphosyntaxiques du français, à partir d’un corpus issu du Wiktionnaire. Les résultats montrent que l’utilisation de traits de forme ou morphologiques est favorable à l’étiquetage correct des mots nouveaux.

Abstract : Part-of-speech (POS) taggers are more or less robust with respect to the labeling of unknown words not found in the training corpus. It is important to know precisely how these tools perfom when we target part-of-speech tagging for formal neologisms. Indeed, grammatical category is an important criterion for both their identification and documentation. We present an evaluation and comparison of 7 POS taggers for French, based on a corpus built from Wiktionary. The results show that the use of form-related or morphological features supports the accurate tagging of new words.

Mots clés : étiquetage morphosyntaxique, évaluation, néologie formelle

Keywords : part-of-speech tagging, evaluation, formal neologisms