talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Etude des critères de désambiguïsation sémantique automatique : résultats sur les cooccurrences

Laurent Audibert

Résumé : Nous présentons dans cet article une étude sur les critères de désambiguïsation sémantique automatique basés sur les cooccurrences. L’algorithme de désambiguïsation utilisé est du type liste de décision, il sélectionne une cooccurrence unique supposée véhiculer l’information la plus fiable dans le contexte ciblé. Cette étude porte sur 60 vocables répartis, de manière égale, en trois classes grammaticales (nom, adjectif et verbe) avec une granularité fine au niveau des sens. Nous commentons les résultats obtenus par chacun des critères évalués de manière indépendante et nous nous intéressons aux particularités qui différencient les trois classes grammaticales étudiées. Cette étude s’appuie sur un corpus français étiqueté sémantiquement dans le cadre du projet SyntSem.

Abstract : This paper describes a study on cooccurrence-based criteria for automatic word sense disambiguation. We use a decision-list algorithm which selects the best disambiguating cue in the target context. The algorithm is tested on 60 words equally distributed among three parts of speech (noun, adjective and verb) with a fine sense granularity. We present the results obtained by each criterion evaluated in an independent way and we discuss the characteristics which differentiate the three parts of speech studied. The study uses a French sense-tagged corpus developed in the SyntSem project.

Mots clés : Désambiguïsation sémantique automatique, corpus sémantiquement étiqueté, cooccurrences

Keywords : Word sense disambiguation, sense tagged corpora, cooccurrences