talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Plusieurs langues (bien choisies) valent mieux qu’une : traduction statistique multi-source par renforcement lexical

Josep Maria Crego, Aurélien Max, François Yvon

Résumé : Les systèmes de traduction statistiques intègrent différents types de modèles dont les prédictions sont combinées, lors du décodage, afin de produire les meilleures traductions possibles. Traduire correctement des mots polysémiques, comme, par exemple, le mot avocat du français vers l’anglais (lawyer ou avocado), requiert l’utilisation de modèles supplémentaires, dont l’estimation et l’intégration s’avèrent complexes. Une alternative consiste à tirer parti de l’observation selon laquelle les ambiguïtés liées à la polysémie ne sont pas les mêmes selon les langues source considérées. Si l’on dispose, par exemple, d’une traduction vers l’espagnol dans laquelle avocat a été traduit par aguacate, alors la traduction de ce mot vers l’anglais n’est plus ambiguë. Ainsi, la connaissance d’une traduction français!espagnol permet de renforcer la sélection de la traduction avocado pour le système français!anglais. Dans cet article, nous proposons d’utiliser des documents en plusieurs langues pour renforcer les choix lexicaux effectués par un système de traduction automatique. En particulier, nous montrons une amélioration des performances sur plusieurs métriques lorsque les traductions auxiliaires utilisées sont obtenues manuellement.

Abstract : Statistical Machine Translation (SMT) systems integrate various models that exploit all available features during decoding to produce the best possible translation hypotheses. Correctly translating polysemous words, such as the French word avocat into English (lawyer or avocado) requires integrating complex models. Such translation lexical ambiguities, however, depend on the language pair considered. If one knows, for instance, that avocat was translated into Spanish as aguacate, then translating it into English is no longer ambiguous (avocado). Thus, in this example, the knowledge of the Spanish translation allows to reinforce the choice of the appropriate English word for the French!English system. In this article, we present an approach in which documents available in several languages are used to reinforce the lexical choices made by a SMT system. In particular, we show that gains can be obtained on several metrics when using auxiliary translations produced by human translators.

Mots clés : Traduction automatique statistique, désambiguïsation lexicale, réévaluation de listes d’hypothèses

Keywords : Statistical Machine Translation, Word Sense Disambiguation, N-best list rescoring