Acquisition de relations lexicales désambiguïsées à partir du Web

Chrystel Millon

Résumé : Nous montrons dans cet article qu’un pré-étiquetage des usages des mots par un algorithme de désambiguïsation tel qu’HyperLex (Véronis, 2003, 2004) permet d’obtenir des relations lexicales (du type NOM-ADJECTIF, NOM de NOM, NOM-VERBE) beaucoup plus exploitables, parce qu’elles-mêmes catégorisées en fonction des usages. De plus, cette technique permet d’obtenir des relations pour des usages très peu fréquents, alors qu’une extraction indifférenciée « noie » ces relations au milieu de celles correspondant aux usages les plus fréquents. Nous avons conduit une évaluation sur un corpus de plusieurs milliers de pages Web comportant l’un des 10 mots-cibles très polysémiques choisis pour cette expérience, et nous montrons que la précision obtenue est très bonne, avec un rappel honorable, suffisant en tout cas pour de nombreuses applications. L’analyse des erreurs ouvre des perspectives d’améliorations pour la suite de notre travail de thèse.

Abstract : This study shows that a pre-labeling of word uses by means of a disambiguation algorithm such as HyperLex (Véronis, 2003, 2004) allows a better extraction of lexical relations (NOUNADJECTIVE, NOUN “de” NOUN, NOUN-VERB, etc.), since these relations are categorised with respect to word use. In addition, this technique enables us to retrieve relations for very infrequent word uses, which otherwise would be buried in the residual noise corresponding to the most frequent uses. We performed an evaluation on several thousand web pages containing a target word among a set of 10 highly polysemic ones. We show that the precision obtained is very good, with a quite honourable recall, sufficient in any case for many applications. The analysis of errors opens avenues of research for the rest of our PhD work.

Mots clés : Corpus, relations lexicales, acquisition automatique, désambiguïsation lexicale

Keywords : Corpus, lexical relations, automatic acquisition, word sense disambiguation

Téléchargement :
[article]
[bibtex]

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Acquisition de relations lexicales désambiguïsées à partir du Web

Chrystel Millon