talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Amélioration de la traduction automatique d’un corpus annoté

Marwa Hadj Salah, Hervé Blanchon, Mounir Zrigui, Didier Schwab

Résumé : Dans cet article, nous présentons une méthode pour améliorer la traduction automatique d’un corpus annoté et porter ses annotations de l’anglais vers une langue cible. Il s’agit d’améliorer la méthode de (Nasiruddin et al., 2015) qui donnait de nombreux segments non traduits, des duplications et des désordres. Nous proposons un processus de pré-traitement du SemCor anglais, pour qu’il soit adapté au système de traduction automatique statistique utilisé, ainsi qu’un processus de post-traitement pour la sortie. Nous montrons une augmentation de 2,9 points en terme de score F1 sur une tâche de désambiguïsation lexicale ce qui prouve l’efficacité de notre méthode.

Mots clés : Portage d’annotations, Traduction Automatique Désambiguïsation lexicale.