talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Désambiguïsation de corpus monolingues par des approches de type Lesk

Florentina Vasilescu, Philippe Langlais

Résumé : Cet article présente une analyse détaillée des facteurs qui déterminent les performances des approches de désambiguïsation dérivées de la méthode de Lesk (1986). Notre étude porte sur une série d’expériences concernant la méthode originelle de Lesk et des variantes que nous avons adaptées aux caractéristiques de WORDNET. Les variantes implémentées ont été évaluées sur le corpus de test de SENSEVAL2, English All Words, ainsi que sur des extraits du corpus SEMCOR. Notre évaluation se base d’un côté, sur le calcul de la précision et du rappel, selon le modèle de SENSEVAL, et d’un autre côté, sur une taxonomie des réponses qui permet de mesurer la prise de risque d’un décideur par rapport à un système de référence.

Abstract : This paper deals with a detailed analysis of the factors determining the performances of Leskbased WSD methods. Our study consists in a series of experiments on the original Lesk algorithm and on its variants that we adapted to WORDNET. These methods were evaluated on the test corpus from SENSEVAL2, English All Words, and on excerpts from SEMCOR. The evaluation metrics are based on precision and recall, as in SENSEVAL exercises, and on a new method estimating the risk taken by each variant.

Mots clés : Désambiguïsation sémantique, algorithme de Lesk, naive Bayes, WORDNET

Keywords : Word sense desambiguation, Lesk’s algorithm, naive Bayes, WORDNET