Induction de règles de correction pour l'étiquetage morphosyntaxique de la littérature de biologie en utilisant l'apprentissage actif
Ahmed Amrani, Yves Kodratoff, Oriane Matte-Tailliez
Résumé : Dans le contexte de l’étiquetage morphosyntaxique des corpus de spécialité, nous proposons une approche inductive pour réduire les erreurs les plus difficiles et qui persistent après étiquetage par le système de Brill. Nous avons appliqué notre système sur deux types de confusions. La première confusion concerne un mot qui peut avoir les étiquettes ‘verbe au participe passé’, ‘verbe au passé’ ou ‘adjectif’. La deuxième confusion se produit entre un nom commun au pluriel et un verbe au présent, à la 3ème personne du singulier. A l’aide d’interface conviviale, l’expert corrige l’étiquette du mot ambigu. A partir des exemples annotés, nous induisons des règles de correction. Afin de réduire le coût d’annotation, nous avons utilisé l’apprentissage actif. La validation expérimentale a montré une amélioration de la précision de l’étiquetage. De plus, à partir de l’annotation du tiers du nombre d’exemples, le niveau de précision réalisé est équivalent à celui obtenu en annotant tous les exemples.
Abstract : In the context of Part-of-Speech (PoS)-tagging of specialized corpora, we proposed an approach focusing on the most ‘important’ PoS-tags because mistaking them can lead to a total misunderstanding of the text. After tagging a biological corpus by Brill’s tagger, we noted persistent errors that are very hard to deal with. As an application, we studied two cases of different nature: first, confusion between past participle, adjective and preterit; second, confusion between plural nouns and verbs, 3rd person singular present. With a friendly user interface, the expert corrected the examples. Then, from these well-annotated examples, we induced rules. In order to reduce the cost of annotation, we used active learning. The experimental validation showed improvement in tagging precision and that on the basis of the annotation of one third of the examples we obtain a level of precision equivalent to the one reached by annotating all the examples.
Mots clés : Etiquetage morphosyntaxique, Apprentissage de règles, Apprentissage actif, fouille de textes
Keywords : Part-of-speech tagging, rule learning, active learning, text-mining