talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Adaptation thématique pour la traduction automatique de dépêches de presse

Souhir Gahbiche-Braham, Hélène Bonneau-Maynard, François Yvon

Résumé : L’utilisation de méthodes statistiques en traduction automatique (TA) implique l’exploitation de gros corpus parallèles représentatifs de la tâche de traduction visée. La relative rareté de ces ressources fait que la question de l’adaptation au domaine est une problématique centrale en TA. Dans cet article, une étude portant sur l’adaptation thématique des données journalistiques issues d’une même source est proposée. Dans notre approche, chaque phrase d’un document est traduite avec le système de traduction approprié (c.-à-d. spécifique au thème dominant dans la phrase). Deux scénarios de traduction sont étudiés : (a) une classification manuelle, reposant sur la codification IPTC ; (b) une classification automatique. Nos expériences montrent que le scénario (b) conduit à des meilleures performances (à l’aune des métriques automatiques), que le scénario (a). L’approche la meilleure pour la métrique BLEU semble toutefois consister à ne pas réaliser d’adaptation ; on observe toutefois qu’adapter permet de lever certaines ambiguïtés sémantiques.

Abstract : Statistical approaches used in machine translation (MT) require the availability of large parallel corpora for the task at hand. The relative scarcity of thes resources makes domain adaptation a central issue in MT. In this paper, a study of thematic adaptation for News texts is presented. All data are produced by the same source : News articles. In our approach, each sentence is translated with the appropriate translation system (specific to the dominant theme for the sentence). Two machine translation scenarios are considered : (a) a manual classification, based on IPTC codification ; (b) an automatic classification. Our experiments show that scenario (b) leads to better performance (in terms of automatic metrics) than scenario (a) . The best approach for the BLEU metric however seems to dispense with adaptation alltogether. Nonetheless, we observe that domain adaptation sometimes resolves some semantic ambiguities.

Mots clés : adaptation thématique, classification automatique, traduction automatique

Keywords : domain adaptation, automatic classification, machine translation