talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction de terminologies bilingues à partir de corpus comparables

Emmanuel Morin, Samuel Dufour-Kowalski, Béatrice Daille

Résumé : Cet article présente une méthode pour extraire, à partir de corpus comparables d’un domaine de spécialité, un lexique bilingue comportant des termes simples et complexes. Cette méthode extrait d’abord les termes complexes dans chaque langue, puis les aligne à l’aide de méthodes statistiques exploitant le contexte des termes. Après avoir rappelé les difficultés que pose l’alignement des termes complexes et précisé notre approche, nous présentons le processus d’extraction de terminologies bilingues adopté et les ressources utilisées pour nos expérimentations. Enfin, nous évaluons notre approche et démontrons son intérêt en particulier pour l’alignement de termes complexes non compositionnels.

Abstract : This article presents a method of extracting bilingual lexica composed of simple and multi-word terms from comparable corpora of a technical domain. First, this method extracts the multiword terms in each language, and then uses statistical methods to align them by exploiting the term contexts. After explaining the difficulties involved in aligning multi-word terms and specifying our approach, we show the adopted process for bilingual terminology extraction and the resources used in our experiments. Finally, we evaluate our approach and demonstrate its significance, particularly in relation to non-compositional multi-word term alignment.

Mots clés : Terminologie bilingue, corpus comparable, termes complexes

Keywords : Bilingual terminology, comparable corpora, multi-word terms