talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Métarecherche pour l'extraction lexicale bilingue à partir de corpus comparables

Amir Hazem, Emmanuel Morin, Sebastián Peña Saldarriaga

Résumé : Nous présentons dans cet article une nouvelle manière d'aborder le problème de l'acquisition automatique de paires de mots en relation de traduction à partir de corpus comparables. Nous décrivons tout d'abord les approches standard et par similarité interlangue traditionnellement dédiées à cette tâche. Nous réinterprétons ensuite la méthode par similarité interlangue et motivons un nouveau modèle pour reformuler cette approche inspirée par les métamoteurs de recherche d'information. Les résultats empiriques que nous obtenons montrent que les performances de notre modèle sont toujours supérieures à celles obtenues avec l'approche par similarité interlangue, mais aussi comme étant compétitives par rapport à l'approche standard.

Abstract : In this article we present a novel way of looking at the problem of automatic acquisition of pairs of translationally equivalent words from comparable corpora.We first describe the standard and extended approaches traditionally dedicated to this task. We then re-interpret the extended method, and motivate a novel model to reformulate this approach inspired by the metasearch engines in information retrieval. The empirical results show that performances of our model are always better than the baseline obtained with the extended approach and also competitive with the standard approach.

Mots clés : Corpus comparables, lexiques bilingues, métarecherche

Keywords : Comparable corpora, bilingual lexicon, metasearch