talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Vers un développement plus efficace des systèmes de traduction statistique : un peu de vert dans un monde de BLEU

Li Gong, Aurélien Max, François Yvon

Résumé : Dans cet article, nous montrons comment l’utilisation conjointe d’une technique d’alignement de phrases parallèles à la demande et d’estimation de modèles de traduction à la volée permet une réduction en temps très notable (jusqu’à 93% dans nos expériences) par rapport à un système à l’état de l’art, tout en offrant un compromis en termes de qualité très intéressant dans certaines configurations. En particulier, l’exploitation immédiate de documents traduits permet de compenser très rapidement l’absence d’un corpus de développement.

Abstract : In this article, we show how using both on-demand alignment of parallel sentences and on-the-fly estimation of translation models can yield massive reduction (up to 93% in our experiments) in development time as compared to a state-of-the-art system, while offering an interesting tradeoff as regards translation quality under some configurations. We show in particular that the absence of a development set can be quickly compensated by immediately using translated documents.

Mots clés : traduction automatique statistique, développement efficace, temps de calcul

Keywords : statistical machine translation, efficient development, computation time