talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Le système WoDiS - WOLF et DIStributions pour la substitution lexicale

Kata Gábor

Résumé : Le présent article décrit le système WoDiS pour la tâche de substitution lexicale SemDis-TALN 2014. L’algorithme mis en place exploite le WOLF (WordNet Libre du Français) pour générer des candidats de substitution ainsi que pour induire un regroupement des sens fondé sur la structure des synsets. Un espace vectoriel est ensuite créé pour caractériser les différents sens du mot cible à partir de données distributionnelles extraites d’un corpus. Lors de la désambiguïsation, cet espace est confronté au contexte par des méthodes empruntées au domaine de la classification thématique de documents. Pour surmonter le problème de l’insuffisance des données pour les sens peu fréquents, une expansion lexicale est appliquée au niveau des groupes de sens, qui permet de retrouver davantage de contextes caractéristiques et compenser le biais que présentent les vecteurs de mots induits de corpus. Le système a fini quatrième (sur neuf systèmes soumis) dans l’évaluation.

Mots clés : substitution lexicale, désambiguïsation de sens, sémantique distributionnelle, WordNet, WOLF.