talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Mise au jour semi-automatique de nuances sémantiques entre mots de sens proches

Mathias Rossignol, Pascale Sébillot

Résumé : L’acquisition automatique sur corpus d’informations lexicales sémantiques donne une place importante à la constitution de classes sémantiques rassemblant des mots de sens proches. Or, l’intérêt pratique de celles-ci reste limité en l’absence d’information sur les distinctions individualisant les sens des mots qu’elles rassemblent. Nous présentons dans cet article un premier système permettant de mettre au jour, de manière semi-automatique et à partir des seules données textuelles rassemblées dans un corpus, des éléments de distinction sémantique fine entre mots appartenant à une même classe, atteignant ainsi un degré de définition du sens encore inédit en acquisition automatique d’informations sémantiques lexicales. La technique mise au point regroupe, en s’appuyant sur l’étude de grands voisinages autour des occurrences des mots comparés, des paires de mots distingués par des nuances similaires. Cette approche présente la faiblesse de ne permettre qu’une représentation implicite des nuances découvertes : les listes de paires de mots rapprochées doivent être interprétées afin de « comprendre » l’élément de distinction commun. En revanche, elle permet une automatisation importante du processus de recherche de nuances, suffisante pour assurer que le travail humain de validation des résultats n’introduise dans ceux-ci de biais interprétatif trop important.

Abstract : The corpus-based acquisition of lexical semantic information has given rise to numerous studies on the automatic constitution of semantic classes, clustering words with similar meanings. However, the practical interest of these classes remains limited in the absence of knowledge about the nuances of meaning differentiating the words of a same class. We present a first system to make explicit such semantic nuances, in a semi-automatic way, using data from a text corpus, thus reaching a degree of word meaning definition, to our knowledge, never attained before by automatic means, This technique exploits large contexts around word occurrences to bring together pairs of words characterised by a similar meaning nuance. The limitation of this approach is that it only provides an implicit representation of the discovered distinctions : human interpretation is still required to name them. However, it enables an important level of automation, so that the human validation work can only introduce a limited bias in the results.

Mots clés : classes sémantiques, nuances de sens, acquisition sur corpus

Keywords : semantic classes, nuances, corpus-based acquisition