talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Degré de comparabilité, extraction lexicale bilingue et recherche d'information interlingue

Bo Li, Eric Gaussier, Emmanuel Morin, Amir Hazem

Résumé : Nous étudions dans cet article le problème de la comparabilité des documents composant un corpus comparable afin d'améliorer la qualité des lexiques bilingues extraits et les performances des systèmes de recherche d'information interlingue. Nous proposons une nouvelle approche qui permet de garantir un certain degré de comparabilité et d'homogénéité du corpus tout en préservant une grande part du vocabulaire du corpus d'origine. Nos expériences montrent que les lexiques bilingues que nous obtenons sont d'une meilleure qualité que ceux obtenus avec les approches précédentes, et qu'ils peuvent être utilisés pour améliorer significativement les systèmes de recherche d'information interlingue.

Abstract : We study in this paper the problem of enhancing the comparability of bilingual corpora in order to improve the quality of bilingual lexicons extracted from comparable corpora and the performance of crosslanguage information retrieval (CLIR) systems. We introduce a new method for enhancing corpus comparability which guarantees a certain degree of comparability and homogeneity, and still preserves most of the vocabulary of the original corpus. Our experiments illustrate the well-foundedness of this method and show that the bilingual lexicons obtained are of better quality than the lexicons obtained with previous approaches, and that they can be used to significantly improve CLIR systems.

Mots clés : Corpus comparables, comparabilité, lexiques bilingues, recherche d'information interlingue

Keywords : Comparable corpora, comparability, bilingual lexicon, cross-language information retrieval