talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Acquisition de lexique bilingue d’expressions polylexicales: Une application à la traduction automatique statistique

Dhouha Bouamor

Résumé : Cet article décrit une méthode permettant d’acquérir un lexique bilingue d’expressions polylexicales (EPLS) à partir d’un corpus parallèle français-anglais. Nous identifions dans un premier temps les EPLS dans chaque partie du corpus parallèle. Ensuite, nous proposons un algorithme d’alignement assurant la mise en correspondance bilingue d’EPLS. Pour mesurer l’apport du lexique construit, une évaluation basée sur la tâche de Traduction Automatique Statistique (TAS) est menée. Nous étudions les performances de trois stratégies dynamiques et d’une stratégie statique pour intégrer le lexique bilingue d’expressions polylexicales dans un système de TAS. Les expériences menées dans ce cadre montrent que ces unités améliorent significativement la qualité de traduction.

Abstract : This paper describes a method aiming to construct a bilingual lexicon of MultiWord Expressions (MWES) from a French-English parallel corpus. We first extract monolingual MWES from each part of the parallel corpus. The second step consists in acquiring bilingual correspondences of MWEs. In order to assess the quality of the mined lexicon, a Statistical Machine Translation (SMT) task-based evaluation is conducted. We investigate the performance of three dynamic strategies and of one static strategy to integrate the mined bilingual MWES lexicon in a SMT system. Experimental results show that such a lexicon significantly improves the quality of translation.

Mots clés : Expression polylexicale, alignement bilingue, traduction automatique statistique

Keywords : MultiWord expression, bilingual alignment, statistical machine translation