Orthographic and Morphological Processing for English-Arabic Statistical Machine Translation
Ahmed El Kholy, Nizar Habash
Résumé : De nombreux travaux en Traduction Automatique Statistique (TAS) pour des langues d’entrée morphologiquement riches montrent que la ségmentation morphologique et la normalisation orthographique améliorent la qualité des traductions en diminuant la sparsité des données. Dans cet article, nous étudions l’impact de ce prétraitement pour la TAS vers une langue de sortie riche morphologiquement, comme l’Arabe. Nous explorons l’espace des schémas de segmentation et des options de normalisation possibles. Nous évaluons seulement la sortie sous une forme désegmentée et enrichie orthographiquement. Nos résultats montrent d’une part que le meilleur schéma pour la ségmentation est celui de la Penn Arabic Treebank. D’autre part, la meilleure procédure de prétraitement consiste à entraîner le système sur des données normalisées orthographiquement, puis à enrichir et désegmenter les traductions en sortie.
Abstract : Much of the work on Statistical Machine Translation (SMT) from morphologically rich languages has shown that morphological tokenization and orthographic normalization help improve SMT quality because of the sparsity reduction they contribute. In this paper, we study the effect of these processes on SMT when translating into a morphologically rich language, namely Arabic.We explore a space of tokenization schemes and normalization options. We only evaluate on detokenized and orthographically correct (enriched) output. Our results show that the best performing tokenization scheme is that of the Penn Arabic Treebank. Additionally, training on orthographically normalized (reduced) text then jointly enriching and detokenizing the output outperforms training on enriched text.
Mots clés : Langue Arabe, Morphologie, Ségmentation, Désegmentation, La Traduction Automatique Statistique
Keywords : Arabic Language, Morphology, Tokenization, Detokenization, Statistical Machine Translation