talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Apprentissage partiellement supervisé d’un étiqueteur morpho-syntaxique par transfert cross-lingue

Guillaume Wisniewski, Nicolas Pécheux, Elena Knyazeva, Alexandre Allauzen, François Yvon

Résumé : Les méthodes de transfert cross-lingue permettent partiellement de pallier l’absence de corpus annotés, en particulier dans le cas de langues peu dotées en ressources linguistiques. Le transfert d’étiquettes morpho-syntaxiques depuis une langue riche en ressources, complété et corrigé par un dictionnaire associant à chaque mot un ensemble d’étiquettes autorisées, ne fournit cependant qu’une information de supervision incomplète. Dans ce travail, nous reformulons ce problème dans le cadre de l’apprentissage ambigu et proposons une nouvelle méthode pour apprendre un analyseur de manière faiblement supervisée à partir d’un modèle à base d’historique. L’évaluation de cette approche montre une amélioration sensible des performances par rapport aux méthodes de l’état de l’art pour trois langues sur quatre considérées, avec des gains jusqu’à 3,9% absolus ou 35,8% relatifs.

Abstract : When Part-of-Speech annotated data is scarce, e.g. for under resourced languages, one can turn to crosslingual transfer and crawled dictionaries to collect partially supervised data. We cast this problem in the framework of ambiguous learning and show how to learn an accurate history-based model. This method is evaluated on four languages and yields improvements over state-of-the-art for three of them, with gains up to 3.9% absolute or 35.8% relative.

Mots clés : apprentissage partiellement supervisé, analyse morpho-syntaxique, transfert cross-lingue

Keywords : Weakly Supervised Learning, Part-of-Speech Tagging, Cross-Lingual Transfer