talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Méthodologie pour la création d’un dictionnaire distributionnel dans une perspective d’étiquetage lexical semi-automatique

Delphine Reymond

Résumé : Des groupes de recherche de plus en plus nombreux s'intéressent à l’étiquetage lexical ou la désambiguïsation du sens. La tendance actuelle est à l’exploitation de très grands corpus de textes qui, grâce à l'utilisation d’outils lexicographiques appropriés, peuvent fournir un ensemble de données initiales aux systèmes. A leur tour ces systèmes peuvent être utilisés pour extraire plus d'informations des corpus, qui peuvent ensuite être réinjectées dans les systèmes, dans un processus récursif. Dans cet article, nous présentons une méthodologie qui aborde la résolution de l’ambiguïté lexicale comme le résultat de l’interaction de divers indices repérables de manière semi-automatique au niveau syntaxique (valence), sémantique (collocations, classes d’objets) avec la mise en oeuvre de tests manuels.

Abstract : More and more research groups are involved in sense tagging or sense disambiguation. The current trend is to use very large text corpora which, with the help of appropriate lexicographical tools, can provide initial data to the disambiguation systems. In turn, these systems can be used to extract more data from corpora, which can be fed again to the systems, in a bootstrapping process. In this paper, we tackle lexical disambiguation through the interaction of various cues which can be detected semi-automatically at the syntactic and semantic levels (valency, collocations, object classes), along with manual tests.

Mots clés : Désambiguïsation lexicale, dictionnaire, propriétés distributionnelles, collocations, classes d’objets

Keywords : WSD, dictionary, distributional properties, collocations, classes of objects