talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Influence des points d’ancrage pour l’extraction lexicale bilingue à partir de corpus comparables spécialisés

Emmanuel Prochasson, Emmanuel Morin

Résumé : L’extraction de lexiques bilingues à partir de corpus comparables affiche de bonnes performances pour des corpus volumineux mais chute fortement pour des corpus d’une taille plus modeste. Pour pallier cette faiblesse, nous proposons une nouvelle contribution au processus d’alignement lexical à partir de corpus comparables spécialisés qui vise à renforcer la significativité des contextes lexicaux en s’appuyant sur le vocabulaire spécialisé du domaine étudié. Les expériences que nous avons réalisées en ce sens montrent qu’une meilleure prise en compte du vocabulaire spécialisé permet d’améliorer la qualité des lexiques extraits.

Abstract : Bilingual lexicon extraction from comparable corpora gives good results for large corpora but drops significantly for small size corpora. In order to compensate this weakness, we suggest a new contribution dedicated to the lexical alignment from specialized comparable corpora that strengthens the representativeness of the lexical contexts based on domainspecific vocabulary. The experiments carried out in this way show that taking better account the specialized vocabulary induces a significant improvement in the quality of extracted lexicons.

Mots clés : Corpus comparable, extraction de lexiques bilingues, points d’ancrage

Keywords : Comparable corpus, bilingual lexicon extraction, anchor points