talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Ressources terminologiques et traduction probabiliste: premiers pas positifs vers un système adaptatif

Philippe Langlais

Résumé : Cette dernière décennie a été le témoin d’importantes avancées dans le domaine de la traduction statistique (TS). Aucune évaluation fine n’a cependant été proposée pour mesurer l’adéquation de l’approche statistique dans un contexte applicatif réel. Dans cette étude, nous étudions le comportement d’un engin de traduction probabiliste lorsqu’il traduit un texte de nature très éloignée de celle du corpus utilisé lors de l’entraînement. Nous quantifions en particulier la baisse de performance du système et développons l’idée que l’intégration de ressources terminologiques dans le processus est une solution naturelle et salutaire à la traduction. Nous décrivons cette intégration et évaluons son potentiel.

Abstract : The past decade witnessed exciting work in the field of Statistical Machine Translation (SMT). However, accurate evaluation of its potential in a real-life context is still a questionable issue. In this study, we investigate the behavior of a SMT engine faced with a corpus far different from the one it has been trained on. We show that terminological databases are obvious ressources that should be used to boost the performance of a statistical engine. We propose and evaluate a way of integrating terminology into a SMT engine which yields a significant reduction in word error rate.

Mots clés : Traduction statistique, adapatabilité, terminologie

Keywords : Statistical machine translation, adaptativity, terminology