talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Filtrages syntaxiques de co-occurrences pour la représentation vectorielle de documents

Romaric Besançon, Martin Rajman

Résumé : L’intégration de co-occurrences dans les modèles de représentation vectorielle de documents s’est avérée une source d’amélioration de la pertinence des mesures de similarités textuelles calculées dans le cadre de ces modèles (Rajman et al., 2000; Besançon, 2001). Dans cette optique, la définition des contextes pris en compte pour les co-occurrences est cruciale, par son influence sur les performances des modèles à base de co-occurrences. Dans cet article, nous proposons d’étudier deux méthodes de filtrage des co-occurrences fondées sur l’utilisation d’informations syntaxiques supplémentaires. Nous présentons également une évaluation de ces méthodes dans le cadre de la tâche de la recherche documentaire.

Abstract : The integration of co-occurrence information in the vector-space representation models for texts has proven to improve the relevance of textual similarities (Rajman et al., 2000; Besanc¸on, 2001). In this framework, the definition of what is the context considered for the co-occurrences is an important issue. In this paper, we provide the study of two methods for the filtering of the co-occurrences, both using additional syntactic information. We also present an evaluation of these methods in the framework of information retrieval.

Mots clés : Similarités textuelles, repréesentation vectorielle de textes, sémantique distributionnelle, contexte de co-occurrence

Keywords : Textual similarities, vector space representation, distributional semantics, co-occurrence context