talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Améliorer la précision d’annotation d’un corpus Igbo par reconstruction morphologique et l’apprentissage basé sur la transformation

Ikechukwu Onyenwe, Mark Hepple, Uchechukwu Chinedu

Résumé : Cet article présente une méthode employée pour améliorer l’exactitude des tags syntaxiques d’un corpus Igbo (une langue Africaine agglutinante), en se concentrant sur les formes fléchies. Dans un premier temps, une reconstruction morphologique est appliquée pour identifier ces formes fléchies et les segmenter (segmentation linguistique sous forme de racines et d’affixes). Celle-ci est ensuite utilisée conjointement avec l’algorithme d’apprentissage TBL (Transformation-Based Learning) pour identifier les mots mal labellisés dans le corpus et proposer une étiquette de remplacement, de sorte qu’un expert humain pourrait ensuite accepter ou rejeter ces changements. Pour évaluer l’impact de ce procédé sur le corpus, nous l’avons utilisé pour entraîner un tagueur syntaxique. Durant la labellisation de l’Igbo, la majorité des mots inconnus (c’est-à-dire les mots non présents dans les données d’entraînement) apparaît en raison de la flexion. Nous avons observé grâce à notre approche une amélioration de la précision de 77,77% à 83,13% pour la labellisation syntaxique des mots inconnus, et de 58,01% à 86,81% sur les formes fléchies inconnues.

Mots clés : Corpus, partie du discours, l’apprentissage basé sur la transformation, l’apprentissage de la machine, Igbo, morpho Reconstruction logique, Morphologie ou affixes, mots inconnus.