talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Éléments pour la génération de classes sémantiques à partir de définitions lexicographiques Pour une approche sémique du sens

Mathieu Valette, Alexander Estacio-Moreno, Étienne Petitjean, Évelyne Jacquey

Résumé : Ce papier expose une expérience de classification menée sur un corpus de définitions dictionnairiques. Le cadre général de cette recherche est la constitution d’une ressource lexico-sémantique fondée sur une conception structuraliste du sens (le contenu sémantique d’une unité lexicale est structuré en sèmes ; le sens d’un texte émerge de faisceaux de regroupements sémiques stabilisés). L’objectif de l’expérience rapportée est de découvrir des classes sémantiques à partir de définitions dictionnairiques avec la méthode CAH. Les classes sémantiques regroupent des unités lexicales en fonction de sèmes génériques (i.e. communs à toutes les unités lexicales de la classe) et s’organisent différentiellement en fonction de sèmes spécifiques. À partir d’une sélection d’entrées dictionnairiques partageant le sème générique /arbre/, nous étudions la distribution et l’organisation d’une hypothétique classe sémantique liée au domaine de la sylviculture.

Abstract : This paper describes an experiment of classification, based on a corpus of dictionary definitions. Underlying this research is the building of a lexico-semantic resource based on a structuralist approach to meaning. The semantic content of a lexical item is made up of semes; the meaning of a text emerges from groupings of stabilised seme sets. The purpose of the experiment is to make up semantic classes (or clusters) with dictionary definitions by using the HCA method. Semantic classes are built from lexical items according to generic semes in that they are shared by all lexical items of the class. They are differentiated according to their specific semes. From a selection of dictionary entries sharing generic seme /arbre/ (“tree”), the distribution and the organisation of an assumed semantic class linked to the domain of Forestry will be studied.

Mots clés : ressources lexico-sémantiques, dictionnaire sémique, sémantique textuelle, classification automatique, CAH, Jaccard

Keywords : lexico-semantic resources, seme dictionary, text semantics, clustering, HCA, Jaccard, UPGM