talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Recherche locale pour la traduction statistique à base de segments

Philippe Langlais, Alexandre Patry, Fabrizio Gotti

Résumé : Dans cette étude, nous nous intéressons à des algorithmes de recherche locale pour la traduction statistique à base de segments (phrase-based machine translation). Les algorithmes que nous étudions s’appuient sur une formulation complète d’un état dans l’espace de recherche contrairement aux décodeurs couramment utilisés qui explorent l’espace des préfixes des traductions possibles. Nous montrons que la recherche locale seule, permet de produire des traductions proches en qualité de celles fournies par les décodeurs usuels, en un temps nettement inférieur et à un coût mémoire constant. Nous montrons également sur plusieurs directions de traduction qu’elle permet d’améliorer de manière significative les traductions produites par le système à l’état de l’art Pharaoh (Koehn, 2004).

Abstract : Most phrase-based statistical machine translation decoders rely on a dynamicprogramming technique for maximizing a combination of models, including one or several language models and translation tables. One implication of this choice is the design of a scoring function that can be computed incrementally on partial translations, a restriction a search engine using a complete-state formulation does not have. In this paper, we present experiments we conducted with a simple, yet effective greedy search engine.We report significant improvements in translation quality over a state-of-the-art beam-search decoder, for some configurations.

Mots clés : Traduction statistique, recherche locale, post-traitement

Keywords : Statistical Machine Translation, local search, post-processing