talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Trouver le coupable : Fouille d’erreurs sur des sorties d’analyseurs syntaxiques

Benoît Sagot, Éric Villemonte De La Clergerie

Résumé : Nous présentons une méthode de fouille d’erreurs pour détecter automatiquement des erreurs dans les ressources utilisées par les systèmes d’analyse syntaxique. Nous avons mis en oeuvre cette méthode sur le résultat de l’analyse de plusieurs millions de mots par deux systèmes d’analyse différents qui ont toutefois en commun le lexique syntaxique et la chaîne de traitement pré-syntaxique. Nous avons pu identifier ainsi des inexactitudes et des incomplétudes dans les ressources utilisées. En particulier, la comparaison des résultats obtenus sur les sorties des deux analyseurs sur un même corpus nous a permis d’isoler les problèmes issus des ressources partagées de ceux issus des grammaires.

Abstract : We introduce an error mining technique for automatically detecting errors in resources used in parsing systems.We applied this technique on parsing results produced on several millions of words by two distinct parsing systems, which share a common syntactic lexicon and pre-parsing processing chain.We were thus able to identify errors and missing elements in the resources. In particular, by comparing both systems’ results, we were able to differentiate between problems stemming from shared resources and those resulting from grammars.

Mots clés : analyse syntaxique, fouille d’erreurs

Keywords : parsing, error mining