talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Détection et correction automatique d'erreurs d'annotation morpho-syntaxique du French TreeBank

Florian Boudin, Nicolas Hernandez

Résumé : La qualité de l’annotation morpho-syntaxique d’un corpus est déterminante pour l’entraînement et l’évaluation de méthodes d’étiquetage. Cet article présente une série d’expériences que nous avons menée sur la détection et la correction automatique des erreurs du French Treebank. Deux méthodes sont utilisées. La première consiste à identifier les mots sans étiquette et leur attribuer celle d’une forme correspondante observée dans le corpus. La seconde méthode utilise les variations de n-gramme pour détecter et corriger les anomalies d’annotation. L’évaluation des corrections apportées au corpus est réalisée de manière extrinsèque en comparant les scores de performance de différentes méthodes d’étiquetage morpho-syntaxique en fonction du niveau de correction. Les résultats montrent une amélioration significative de la précision et indiquent que la qualité du corpus peut être sensiblement améliorée par l’application de méthodes de correction automatique des erreurs d’annotation.

Abstract : The quality of the Part-Of-Speech (POS) annotation in a corpus has a large impact on training and evaluating POS taggers. In this paper, we present a series of experiments that we have conducted on automatically detecting and correcting annotation errors in the French TreeBank. Two methods are used. The first simply relies on identifying tokens with missing tags and correct them by assigning the tag the same token observed in the corpus. The second method uses n-gram variations to detect and correct conflicting annotations. The evaluation of the automatic correction is performed extrinsically by comparing the performance of different POS taggers in relation to the level of correction. Results show a statistically significant improvement in precision and indicate that the POS annotation quality can be noticeably enhanced by using automatic correction methods.

Mots clés : Étiquetage morpho-syntaxique, correction automatique, qualité d’annotation

Keywords : Part-Of-Speech tagging, automatic correction, annotation quality