Peut-on trouver la taille de contexte optimale en désambiguïsation sémantique?
Éric Crestan, Marc El-Bèze, Claude De Loupy
Résumé : Dans la tâche de désambiguïsation sémantique, la détermination de la taille optimale de fenêtre de contexte à utiliser, a fait l'objet de plusieurs études. Dans cet article, nous proposons une approche à deux niveaux pour répondre à cette problématique de manière automatique. Trois systèmes concurrents à base d'arbres de classification sémantique sont, dans un premier temps, utilisés pour déterminer les trois sens les plus vraisemblables d'un mot. Ensuite, un système décisionnel tranche entre ces sens au regard d'un contexte plus étendu. Les améliorations constatées lors d'expériences menées sur les données de SENSEVAL-1 et vérifiées sur les données SENSEVAL-2 sont significatives.
Abstract : The determination of context length to use for Word Sense Disambiguation (WSD) has been the object of several studies. In this paper, we propose to use a monitoring system in order to select automatically the optimal window size among three possibilities. We used a two-step strategy based on Semantic Classification Trees (SCT) and on a similarity measure. Whereas SCTs are employed on a short window size of 3, 5 and 7 words, the technique based on similarity measure is appllied to a ‘wider’ context size. The improvements observed in the SENSEVAL-1 lexical-sample task are verified on the SENSEVAL-2 data.
Mots clés : Désambiguïsation sémantique, arbres de classification sémantique
Keywords : Word sense disambiguation, semantic classification trees, monitoring system