talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Etude de l’impact de la translittération de noms propres sur la qualité de l’alignement de mots à partir de corpus parallèles français-arabe

Nasredine Semmar, Houda Saadane

Résumé : Les lexiques bilingues jouent un rôle important en recherche d'information interlingue et en traduction automatique. La construction manuelle de ces lexiques est lente et coûteuse. Les techniques d’alignement de mots sont généralement utilisées pour automatiser le processus de construction de ces lexiques à partir de corpus de textes parallèles. L’alignement de formes simples et de syntagmes nominaux à partir de corpus parallèles est une tâche relativement bien maîtrisée pour les langues à écriture latine, mais demeure une opération complexe pour l’appariement de textes n’utilisant pas la même écriture. Dans la perspective d’utiliser la translittération de noms propres de l’arabe vers l’écriture latine en alignement de mots et d’étudier son impact sur la qualité d’un lexique bilingue français-arabe construit automatiquement, cet article présente, d’une part, un système de translittération de noms propres de l’arabe vers l’écriture latine, et d’autre part, un outil d’alignement de mots simples et composés à partir de corpus de textes parallèles français-arabe. Le lexique bilingue produit par l’outil d'alignement de mots intégrant la translittération a été évalué en utilisant deux approches : une évaluation de la qualité d’alignement à l’aide d’un alignement de référence construit manuellement et une évaluation de l’impact de ce lexique bilingue sur la qualité de traduction du système de traduction automatique statistique Moses. Les résultats obtenus montrent que la translittération améliore aussi bien la qualité de l’alignement de mots que celle de la traduction.

Abstract : Bilingual lexicons play a vital role in cross-language information retrieval and machine translation. The manual construction of these lexicons is often costly and time consuming. Word alignment techniques are generally used to construct bilingual lexicons from parallel texts. Aligning single words and nominal syntagms from parallel texts is relatively a well controlled task for languages using Latin script but it is complex when the source and target languages do not share the same written script. A solution to this issue consists in writing the proper names present in the parallel corpus in the same written script. This paper presents, on the one hand, a system for automatic transliteration of proper names from Arabic to Latin script, and on the other hand, a tool to align single and compound words from French- Arabic parallel text corpora. We have evaluated the word alignment tool integrating transliteration using two methods: A manual evaluation of the alignment quality and an evaluation of the impact of this alignment on the translation quality by using the statistical machine translation system Moses. The obtained results show that transliteration of proper names from Arabic to Latin improves the quality of both alignment and translation.

Mots clés : Lexique bilingue, translittération, alignement de mots, traduction automatique statistique, évaluation

Keywords : Bilingual lexicon, transliteration, word alignment, statistical machine translation, evaluation