talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Acquisition semi-automatique de relations lexicales bilingues (français-anglais) à partir du Web

Stéphanie Léon, Chrystel Millon

Résumé : Cet article présente une méthode d’acquisition semi-automatique de relations lexicales bilingues (français-anglais) faisant appel à un processus de validation sur le Web. Notre approche consiste d’abord à extraire automatiquement des relations lexicales françaises. Nous générons ensuite leurs traductions potentielles grâce à un dictionnaire électronique. Ces traductions sont enfin automatiquement filtrées à partir de requêtes lancées sur le moteur de recherche Google. Notre évaluation sur 10 mots français très polysémiques montre que le Web permet de constituer ou compléter des bases de données lexicales multilingues, encore trop rares, mais dont l’utilité est pourtant primordiale pour de nombreuses applications, dont la traduction automatique.

Abstract : This paper presents a method of semi-automatic acquisition of bilingual (French-English) lexical relations using a validation process via the Web. Our approach consists firstly of automatically extracting French lexical relations. We then generate their potential translations by means of an electronic dictionary. These translations are finally automatically filtered using queries on the Google search engine. Our evaluation on 10 very polysemous French words shows that the Web is a useful resource for building or improving multilingual lexical databases, which are urgently needed in a wide range of applications, such as machine translation.

Mots clés : Traduction, corpus, relations lexicales bilingues, acquisition semi-automatique, World Wide Web

Keywords : Translation, corpus, bilingual lexical relations, semi-automatic acquisition, World Wide Web