talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction de lexiques bilingues à partir de corpus comparables par combinaison de représentations contextuelles

Amir Hazem, Emmanuel Morin

Résumé : La caractérisation du contexte des mots constitue le coeur de la plupart des méthodes d’extraction de lexiques bilingues à partir de corpus comparables. Dans cet article, nous revisitons dans un premier temps les deux principales stratégies de représentation contextuelle, à savoir celle par fenêtre ou sac de mots et celle par relations de dépendances syntaxiques. Dans un second temps, nous proposons deux nouvelles approches qui exploitent ces deux représentations de manière conjointe. Nos expériences montrent une amélioration significative des résultats sur deux corpus de langue de spécialité.

Abstract : Words context characterisation constitute the heart of most methods of bilingual lexicon extraction from comparable corpora. In this article, we first revisit the two main strategies of context representation, that is : the window-based and the syntactic based context representation. Secondly, we propose two new methods that exploit jointly these different representations . Our experiments show a significant improvement of the results obtained on two different domain specific comparable corpora.

Mots clés : Multilingualisme, corpus comparables, lexique bilingue, vecteurs de contexte, dépendances syntaxiques

Keywords : Multilingualism, comparable corpora, bilingual lexicon, context vectors, syntactic dependencies