talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Dictionnaires distributionnels et étiquetage lexical de corpus

Delphine Reymond

Résumé : Ce papier présente la première partie d’un travail de thèse qui vise à construire un « dictionnaire distributionnel » à partir d’un corpus de référence. Le dictionnaire proposé est basé sur un ensemble de critères différentiels stricts qui constituent des indices exploitables par des machines pour discriminer le sens des mots en contexte. Pour l’instant, le travail a porté sur 50 000 occurrences qui ont été étiquetées de façon manuelle. Ce sous-corpus pourra servir de corpus d’amorçage pour la constitution d'un corpus étiqueté plus grand, qui pourrait servir à différents tests et travaux sur la désambiguïsation automatique.

Abstract : This paper presents the first part of a Ph. D. aimed at the construction of a “distributional dictionary” from a reference corpus. The dictionary proposed is based on a set of strict differential criteria that can be used as clues for the discrimination of word senses in context. So far, we have worked on 50,000 occurrences that have been manually tagged. This subcorpus can be used as a bootstrap corpus for the construction of a larger tagged corpus that could be used in various tests and studies on automatic disambiguation.

Mots clés : Corpus, dictionnaire, étiquetage lexical, information distributionnelle

Keywords : Corpora, dictionaries, lexical tagging, distributional information