talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Prise en compte de dépendances syntaxiques pour la traduction contextuelle de segments

Aurélien Max, Rafik Maklhoufi, Philippe Langlais

Résumé : Dans un système standard de traduction statistique basé sur les segments, le score attribué aux différentes traductions d’un segment ne dépend pas du contexte dans lequel il apparaît. Plusieurs travaux récents tendent à montrer l’intérêt de prendre en compte le contexte source lors de la traduction, mais ces études portent sur des systèmes traduisant vers l’anglais, une langue faiblement fléchie. Dans cet article, nous décrivons nos expériences sur la prise en compte du contexte source dans un système statistique traduisant de l’anglais vers le français, basé sur l’approche proposée par Stroppa et al. (2007). Nous étudions l’impact de différents types d’indices capturant l’information contextuelle, dont des dépendances syntaxiques typées. Si les mesures automatiques d’évaluation de la qualité d’une traduction ne révèlent pas de gains significatifs de notre système par rapport à un système à l’état de l’art ne faisant pas usage du contexte, une évaluation manuelle conduite sur 100 phrases choisies aléatoirement est en faveur de notre système. Cette évaluation fait également ressortir que la prise en compte de certaines dépendances syntaxiques est bénéfique à notre système.

Abstract : In standard phrase-based Statistical Machine Translation (PBSMT) systems, the score associated with each translation of a phrase does not depend on its context. While several works have shown the potential gain of exploiting source context, they all considered English, a morphologically poor language, as the target language. In this article, we describe experiments on exploiting the source context in an English -> French PBSMT system, inspired by the work of Stroppa et al. (2007). We report a study on the impact of various types of features that capture contextual information, including syntactic dependencies. While automatic metrics do not show significative gains relative to a baseline system, a manual evaluation of 100 randomly selected sentences concludes that our context-aware system performs consistently better. This evaluation also shows that some types of syntactic dependencies can participate to the gains observed.

Mots clés : Traduction automatique statistique, contexte source, dépendances syntaxiques

Keywords : Statistical Machine Translation, source context, syntactic dependencies