talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Intégration probabiliste de sens dans la représentation de textes

Romaric Besançon, Antoine Rozenknop, Jean-Cédric Chappelier, Martin Rajman

Résumé : Le sujet du présent article est l’intégration des sens portés par les mots en contexte dans une représentation vectorielle de textes, au moyen d’un modèle probabiliste. La représentation vectorielle considérée est le modèle DSIR, qui étend le modèle vectoriel (VS) standard en tenant compte à la fois des occurrences et des co-occurrences de mots dans les documents. L’intégration des sens dans cette représentation se fait à l’aide d’un modèle de Champ de Markov avec variables cachées, en utilisant une information sémantique dérivée de relations de synonymie extraites d’un dictionnaire de synonymes.

Abstract : The present contribution focuses on the integration of word senses in a vector representation of texts, using a probabilistic model. The vector representation under consideration is the DSIR model, that extends the standard Vector Space (VS) model by taking into account both occurrences and co-occurrences of words. The integration of word senses into the co-occurrence model is done using a Markov Random Field model with hidden variables, using semantic information derived from synonymy relations extracted from a synonym dictionary.

Mots clés : Désambiguïsation, Sémantique Distributionnelle, Représentation Vectorielle, Recherche Documentaire, Champs de Markov, algorithme EM

Keywords : Word Sense Disambiguation, Distributional Semantics, Vector Space Representation, Information Retrieval, Markov Random Fields, EM algorithm