talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Évaluation de G-LexAr pour la traduction automatique statistique

Wigdan Mekki, Julien Gosme, Fathi Debili, Yves Lepage, Nadine Lucas

Résumé : G-LexAr est un analyseur morphologique de l'arabe qui a récemment reçu des améliorations substantielles. Cet article propose une évaluation de cet analyseur en tant qu'outil de pré-traitement pour la traduction automatique statistique, ce dont il n'a encore jamais fait l'objet. Nous étudions l'impact des différentes formes proposées par son analyse (voyellation, lemmatisation et segmentation) sur un système de traduction arabe-anglais, ainsi que l'impact de la combinaison de ces formes. Nos expériences montrent que l'utilisation séparée de chacune de ces formes n'a que peu d'influence sur la qualité des traductions obtenues, tandis que leur combinaison y contribue de façon très bénéfique.

Abstract : G-LexAr is an Arabic morphological analyzer that has recently been improved for speed. This paper gives an assessment of this analyzer as a preprocessing tool for statistical machine translation. We study the impact of the use of its possible outputs (vocalized, lemmatized and segmented) through an Arabic-English machine translation system, as well as the impact of the combination of these outputs. Our experiments show that using these outputs separately does not influence much translation quality. However, their combination leads to major improvements.

Mots clés : traduction automatique statistique, analyse morphologique, pré-traitement de l'arabe

Keywords : statistical machine translation, morphological analysis, arabic preprocessing