talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

Haithem Afli, Loïc Barrault, Holger Schwenk

Résumé : Les performances des systèmes de traduction automatique statistique dépendent de la disponibilité de textes parallèles bilingues, appelés aussi bitextes. Cependant, les corpus parallèles sont des ressources limitées et parfois indisponibles pour certains couples de langues ou domaines. Nous présentons une technique pour l’extraction de phrases parallèles à partir d’un corpus comparable multimodal (audio et texte). Ces enregistrements sont transcrits avec un système de reconnaissance automatique de la parole et traduits avec un système de traduction automatique. Ces traductions sont ensuite utilisées comme requêtes d’un système de recherche d’information pour sélectionner des phrases parallèles sans erreur et générer un bitexte. Plusieurs expériences ont été menées sur les données de la campagne IWSLT’11 (TED) qui montrent la faisabilité de notre approche.

Abstract : Statistical Machine Translation (SMT) systems depend on the availability of bilingual parallel text, also called bitext. However parallel corpora are a limited resource and are often not available for some domains or language pairs. We present an alternative method for extracting parallel sentences from multimodal comparable corpora. This work extends the use of comparable corpora, in using audio instead of text on the source side. The audio is transcribed by an automatic speech recognition system and translated with a base-line SMT system. We then use information retrieval in a large text corpus of the target language to extract parallel sentences. We have performed a series of experiments on data of the IWSLT’11 speech translation task (TED) that shows the feasibility of our approach.

Mots clés : Reconnaissance de la parole, traduction automatique statistique, corpus comparables multimodaux, extraction de phrases parallèles

Keywords : Automatic speech recognition, statistical machine translation, multimodal comparable corpora, extraction of parallel sentences