talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Adaptation d’un Système de Traduction Automatique Statistique avec des Ressources monolingues

Holger Schwenk

Résumé : Les performances d’un système de traduction statistique dépendent beaucoup de la qualité et de la quantité des données d’apprentissage disponibles. La plupart des textes parallèles librement disponibles proviennent d’organisations internationales. Le jargon observé dans ces textes n’est pas très adapté pour construire un système de traduction pour d’autres domaines. Nous présentons dans cet article une technique pour adapter le modèle de traduction à un domaine différent en utilisant des textes dans la langue source uniquement. Nous obtenons des améliorations significatives du score BLEU dans des systèmes de traduction de l’arabe vers le français et vers l’anglais.

Abstract : The performance of a statistical machine translation system depends a lot on the quality and quantity of the available training data. Most of the existing, easily available parallel texts come from international organizations and the jargon observed in those texts is not very appropriate to build a machine translation system for other domains. In this paper, we present a technique to automatically adapt the translation model to a new domain using monolingual data in the source language only. We observe significant improvements in the BLEU score in statistical machine translation systems from Arabic to French and English respectively.

Mots clés : Traduction statistique, adaptation du modèle de traduction, corpus monolingue, apprentissage non-supervisé

Keywords : Statistical machine translation, translation model adaptation, monolingual data, unsupervised training