talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Approches en corpus pour la traduction : le cas MÉTÉO

Philippe Langlais, Thomas Leplus, Simona Gandrabur, Guy Lapalme

Résumé : La traduction automatique (TA) attire depuis plusieurs années l’intérêt d’un nombre grandissant de chercheurs. De nombreuses approches sont proposées et plusieurs campagnes d’évaluation rythment les avancées faites. La tâche de traduction à laquelle les participants de ces campagnes se prêtent consiste presque invariablement à traduire des articles journalistiques d’une langue étrangère vers l’anglais; tâche qui peut sembler artificielle. Dans cette étude, nous nous intéressons à savoir ce que différentes approches basées sur les corpus peuvent faire sur une tâche réelle. Nous avons reconstruit à cet effet l’un des plus grands succès de la TA: le système MÉTÉO. Nous montrons qu’une combinaison de mémoire de traduction et d’approches statistiques permet d’obtenir des résultats comparables à celles du système MÉTÉO, tout en offrant un cycle de développement plus court et de plus grandes possibilités d’ajustements.

Abstract : Machine Translation (MT) is the focus of extensive scientific investigations driven by regular evaluation campaigns, but which are mostly oriented towards a somewhat artificial task: translating news articles into English. In this paper, we investigate how well current MT approaches deal with a real-world task. We have rationally reconstructed one of the only MT systems in daily production use: the METEO system. We show how a combination of a sentence-based memory approach, a phrase-based statistical engine and a neural-network rescorer can give results comparable to those of the current system while offering a faster development cycle and better customization possibilities.

Mots clés : Mémoire de traduction, traduction probabiliste, alignements multiples, réordonnancement à postériori

Keywords : Memory-based translation, statistical translation, multiple alignment, rescoring