Mots composés dans les modèles de langue pour la recherche d’information
Carmen Alvarez, Philippe Langlais, Jian-Yun Nie
Résumé : Une approche classique en recherche d’information (RI) consiste à bâtir une représentation des documents et des requêtes basée sur les mots simples les constituant. L’utilisation de modèles bigrammes a été étudiée, mais les contraintes sur l’ordre et l’adjacence des mots dans ces travaux ne sont pas toujours justifiées pour la recherche d’information. Nous proposons une nouvelle approche basée sur les modèles de langue qui incorporent des affinités lexicales (ALs), c’est à dire des paires non ordonnées de mots qui se trouvent proches dans un texte. Nous décrivons ce modèle et le comparons aux plus traditionnels modèles unigrammes et bigrammes ainsi qu’au modèle vectoriel.
Abstract : Previous language modeling approaches to information retrieval have focused primarily on single terms. The use of bigram models has been studied, but the restriction on word order and adjacency may not be justified for information retrieval. We propose a new language modeling approach to information retrieval that incorporates lexical affinities (LAs), or pairs of words that occur near each other, without a constraint on word order. We explore the use of LAs in a language modeling approach, and compare our results with the vector space model, and unigram and bigram language model approaches.
Mots clés : Modèles de langue, recherche d’information, mots composés
Keywords : Language models, information retrieval, compound terms, word pairs