talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une approche hybride pour la construction de lexiques bilingues d'expressions multi-mots à partir de corpus parallèles

Nasredine Semmar, Morgane Marchand

Résumé : Les expressions multi-mots jouent un rôle important dans différentes applications du Traitement Automatique de la Langue telles que la traduction automatique et la recherche d'information interlingue. Cet article, d’une part, décrit une approche hybride pour l’acquisition d’un lexique bilingue d’expressions multi-mots à partir d’un corpus parallèle anglais-français, et d’autre part, présente l’impact de l’utilisation d’un lexique bilingue spécialisé d’expressions multi-mots produit par cette approche sur les résultats du système de traduction statistique libre Moses. Nous avons exploré deux métriques basées sur la co-occurrence pour évaluer les liens d’alignement entre les expressions multi-mots des langues source et cible. Les résultats obtenus montrent que la métrique utilisant un dictionnaire bilingue amorce de mots simples améliore aussi bien la qualité de l’alignement d’expressions multi-mots que celle de la traduction.

Mots clés : Lexique bilingue, alignement d'expressions multi-mots, programmation linéaire.