talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Etude de l’impact d’un lexique bilingue spécialisé sur la performance d’un moteur de traduction à base d’exemples

Nasredine Semmar, Othman Zennaki, Meriama Laib

Résumé : La traduction automatique statistique bien que performante est aujourd'hui limitée parce qu’elle nécessite de gros volumes de corpus parallèles qui n'existent pas pour tous les couples de langues et toutes les spécialités et que leur production est lente et coûteuse. Nous présentons, dans cet article, un prototype d’un moteur de traduction à base d’exemples utilisant la recherche d’information interlingue et ne nécessitant qu’un corpus de textes en langue cible. Plus particulièrement, nous proposons d’étudier l’impact d’un lexique bilingue de spécialité sur la performance de ce prototype. Nous évaluons ce prototype de traduction et comparons ses résultats à ceux du système de traduction statistique Moses en utilisant les corpus parallèles anglais-français Europarl (European Parliament Proceedings) et Emea (European Medicines Agency Documents). Les résultats obtenus montrent que le score BLEU du prototype du moteur de traduction à base d’exemples est proche de celui du système Moses sur des documents issus du corpus Europarl et meilleur sur des documents extraits du corpus Emea.

Mots clés : Traduction automatique, recherche d’information interlingue, lexique bilingue, modèle de traduction, modèle de langue, automate d’états finis, champs conditionnels aléatoires.