talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

WoNeF : amélioration, extension et évaluation d’une traduction française automatique de WordNet

Quentin Pradet, Jeanne Baguenier-Desormeaux, Gaël de Chalendar, Laurence Danlos

Résumé : Identifier les sens possibles des mots du vocabulaire est un problème difficile demandant un travail manuel très conséquent. Ce travail a été entrepris pour l’anglais : le résultat est la base de données lexicale WordNet, pour laquelle il n’existe encore que peu d’équivalents dans d’autres langues. Néanmoins, des traductions automatiques de WordNet vers de nombreuses langues cibles existent, notamment pour le français. JAWS est une telle traduction automatique utilisant des dictionnaires et un modèle de langage syntaxique. Nous améliorons cette traduction, la complétons avec les verbes et adjectifs de WordNet, et démontrons la validité de notre approche via une nouvelle évaluation manuelle. En plus de la version principale nommée WoNeF, nous produisons deux versions supplémentaires : une version à haute précision (93% de précision, jusqu’à 97% pour les noms), et une version à haute couverture contenant 109 447 paires (littéral, synset).

Abstract : Identifying the various possible meanings of each word of the vocabulary is a difficult problem that requires a lot of manual work. It has been tackled by the WordNet lexical semantics database in English, but there are still few resources available for other languages. Automatic translations of WordNet have been tried to many target languages such as French. JAWS is such an automatic translation of WordNet nouns to French using bilingual dictionaries and a syntactic langage model. We improve the existing translation precision and coverage, complete it with translations of verbs and adjectives and enhance its evaluation method, demonstrating the validity of the approach. In addition to the main result called WoNeF, we produce two additional versions : a high-precision version with 93% precision (up to 97% on nouns) and a high-coverage version with 109,447 (literal, synset) pairs.

Mots clés : WordNet, désambiguïsation lexicale, traduction, ressource

Keywords : WordNet, Word Sense Disambiguation, translation, resource