Utilisation de la translittération arabe pour l’amélioration de l’alignement de mots à partir de corpus parallèles français-arabe
Houda Saadane, Nasredine Semmar
Résumé : Dans cet article, nous nous intéressons à l’utilisation de la translittération arabe pour l’amélioration des résultats d’une approche linguistique d’alignement de mots simples et composés à partir de corpus de textes parallèles français-arabe. Cette approche utilise, d’une part, un lexique bilingue et les caractéristiques linguistiques des entités nommées et des cognats pour l’alignement de mots simples, et d’autre part, les relations de dépendance syntaxique pour aligner les mots composés. Nous avons évalué l’aligneur de mots simples et composés intégrant la translittération arabe en utilisant deux procédés : une évaluation de la qualité d’alignement à l’aide d’un alignement de référence construit manuellement et une évaluation de l’impact de cet alignement sur la qualité de la traduction en faisant appel au système de traduction automatique statistique Moses. Les résultats obtenus montrent que la translittération améliore aussi bien la qualité de l’alignement que celle de la traduction.
Abstract : In this paper, we focus on the use of Arabic transliteration to improve the results of a linguistic word alignment approach from parallel text corpora. This approach uses, on the one hand, a bilingual lexicon, named entity and cognates linguistic properties to align single words, and on the other hand, syntactic dependency relations to align compound words. We have evaluated the word aligner integrating Arabic transliteration using two methods: A manual evaluation of the alignment quality and an evaluation of the impact of this alignment on the translation quality by using the statistical machine translation system Moses. The obtained results show that Arabic transliteration improves the quality of both alignment and translation.
Mots clés : Translittération, alignement de mots, construction de dictionnaires multilingues, traduction automatique, recherche d’information interlingue
Keywords : Transliteration, word alignment, multilingual lexicons construction, machine translation, cross-language information retrieval