talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Production automatique de gloses interlinéaires à travers un modèle probabiliste exploitant des alignements

Shu Okabe, François Yvon

Résumé : La production d'annotations linguistiques ou gloses interlinéaires explicitant le sens ou la fonction de chaque unité repérée dans un enregistrement source (ou dans sa transcription) est une étape importante du processus de documentation des langues. Ces gloses exigent une très grande expertise de la langue documentée et un travail d'annotation fastidieux. Notre étude s'intéresse à l'automatisation partielle de ce processus. Il s'appuie sur la partition des gloses en deux types : les gloses grammaticales exprimant une fonction grammaticale, les gloses lexicales indiquant les unités de sens. Notre approche repose sur l'hypothèse d'un alignement entre les gloses lexicales et une traduction ainsi que l'utilisation de Lost, un modèle probabiliste de traduction automatique. Nos expériences sur une langue en cours de documentation, le tsez, montrent que cet apprentissage est effectif même avec un faible nombre de phrases de supervision.

Mots clés : génération de gloses interlinéaires, documentation automatique des langues, alignement de mots