talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Traduction automatique statistique pour l’arabe-français améliorée par le prétraitement et l’analyse de la langue

Fatiha Sadat, Emad Mohamed

Résumé : Dans cet article, nous nous intéressons au prétraitement de la langue arabe comme langue source à des fins de traduction automatique statistique. Nous présentons une étude sur la traduction automatique statistique basée sur les syntagmes, pour la paire de langues arabe-français utilisant le décodeur Moses ainsi que d’autres outils de base. Les propriétés morphologiques et syntaxiques de la langue arabe sont complexes, ce qui rend cette langue difficile à maîtriser dans le domaine du TALN. Aussi, les performances d’un système de traduction statistique dépendent considérablement de la quantité et de la qualité des corpus d’apprentissage. Dans cette étude, nous montrons qu’un prétraitement basé sur les mots de la langue source (arabe) et l’introduction de quelques règles linguistiques par rapport à la syntaxe de la langue cible (français), permet d’obtenir des améliorations du score BLEU. Cette amélioration est réalisée sans augmenter la quantité des corpus d’apprentissage.

Abstract : Arabic is a morphologically rich and complex language, which presents significant challenges for natural language processing and machine translation. In this paper, we describe an ongoing effort to build a competitive Arabic-French phrase–based machine translation system using the Moses decoder and other tools. The results show an increase in terms of BLEU score after introducing some pre-processing schemes for Arabic and applying additional language analysis rules in relation to the target language. The proposed approach is completed using pre-processing and language analysis rules without increasing the amount of training data.

Mots clés : Traduction automatique statistique, traduction arabe-français, pré-traitement de corpus, morphologie de l’Arabe

Keywords : Statistical machine translation, Arabic-French translation, Corpus pre-processing, Arabic morphology