talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Classification automatique de définitions en sens

Fabien Jalabert, Mathieu Lafourcade

Résumé : Dans le cadre de la recherche en sémantique lexicale, l’équipe TAL du LIRMM développe actuellement un système d’analyse des aspects thématiques des textes et de désambiguisation lexicale basé sur les vecteurs conceptuels. Pour la construction des vecteurs, les définitions provenant de sources lexicales différentes (dictionnaires à usage humain, listes de synonymes, définitions de thésaurus, . . .) sont analysées. Aucun découpage du sens n’est présent dans la représentation : un vecteur conceptuel est associé à chaque définition et un autre pour représenter le sens global du mot. Nous souhaitons effectuer une catégorisation afin que chaque élément ne soit plus une définition mais un sens. Cette amélioration concerne bien sur directement les applications courantes (désambiguïsation, transfert lexical, . . .) mais a aussi pour objectif majeur d’améliorer l’apprentissage de la base.

Abstract : In the framework of research in meaning representation in NLP, we focus our attention on thematic aspects and conceptual vectors. A vectorial base is built upon a morphosyntactic analysis of several lexical resources to reduce isolated problems. A conceptual vector is associated with each definition and another one with the global meaning of a word. There is no effective meaning division and representation the the knowledge base. We study in the article a clustering method that merge definitions into senses. This applies on common problems (word sense disambiguation, word translation, . . .) and mainly to improve knowledge base learning.

Mots clés : Traitement automatique des langues naturelles, classification automatique, désambiguïsation sémantique lexicale

Keywords : Natural language processing, unsupervised clustering, word sense disambiguation