talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Traduction automatique de corpus en anglais annotés en sens pour la désambiguïsation lexicale d’une langue moins bien dotée, l’exemple de l’arabe

Marwa Hadj Salah, Loïc Vial, Hervé Blanchon, Mounir Zrigui, Didier Schwab

Résumé : Les corpus annotés en sens sont des ressources cruciales pour la tâche de désambiguïsation lexicale (Word Sense Disambiguation). La plupart des langues n’en possèdent pas ou trop peu pour pouvoir construire des systèmes robustes. Nous nous intéressons ici à la langue arabe et présentons 12 corpus annotés en sens, fabriqués automatiquement à partir de 12 corpus en langue anglaise. Nous évaluons la qualité de nos systèmes de désambiguïsation grâce à un corpus d’évaluation en arabe nouvellement disponible.

Mots clés : Désambiguïsation lexicale, Construction automatique de corpus annotés.