talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Post-édition statistique pour l'adaptation aux domaines de spécialité en traduction automatique

Raphaël Rubino, Stéphane Huet, Fabrice Lefèvre, Georges Linarès

Résumé : Cet article présente une approche de post-édition statistique pour adapter aux domaines de spécialité des systèmes de traduction automatique génériques. En utilisant les traductions produites par ces systèmes, alignées avec leur traduction de référence, un modèle de post-édition basé sur un alignement sous-phrastique est construit. Les expériences menées entre le français et l’anglais pour le domaine médical montrent qu’une telle adaptation a posteriori est possible. Deux systèmes de traduction statistiques sont étudiés : une implémentation locale état-de-l’art et un outil libre en ligne. Nous proposons aussi une méthode de sélection de phrases à post-éditer permettant d’emblée d’accroître la qualité des traductions et pour laquelle les scores oracles indiquent des gains encore possibles.

Abstract : This paper presents a statistical approach to adapt generic machine translation systems to the medical domain through an unsupervised post-edition step. A statistical post-edition model is built on statistical machine translation outputs aligned with their translation references. Evaluations carried out to translate medical texts from French to English show that a generic machine translation system can be adapted a posteriori to a specific domain. Two systems are studied : a state-of-the-art phrase-based implementation and an online publicly available software. Our experiments also indicate that selecting sentences for post-edition leads to significant improvements of translation quality and that more gains are still possible with respect to an oracle measure.

Mots clés : Traduction automatique statistique, post-édition, adaptation aux domaines de spécialité

Keywords : Statistical Machine Translation, Post-editing, Domain Adaptation