talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Détection automatique des sessions de recherche par similarité des résultats provenant d’une collection de documents externe

Simon Leva, Nicolas Faessel

Résumé : Les utilisateurs d’un système de recherche d’information mettent en oeuvre des comportements de recherche complexes tels que la reformulation de requête et la recherche multitâche afin de satisfaire leurs besoins d’information. Ces comportements de recherche peuvent être observés à travers des journaux de requêtes, et constituent des indices permettant une meilleure compréhension des besoins des utilisateurs. Dans cette perspective, il est nécessaire de regrouper au sein d’une même session de recherche les requêtes reliées à un même besoin d’information. Nous proposons une méthode de détection automatique des sessions exploitant la collection de documents WIKIPÉDIA, basée sur la similarité des résultats renvoyés par l’interrogation de cette collection afin d’évaluer la similarité entre les requêtes. Cette méthode obtient de meilleures performances que les approches temporelle et lexicale traditionnellement employées pour la détection de sessions séquentielles, et peut être appliquée à la détection de sessions imbriquées. Ces expérimentations ont été réalisées sur des données provenant du portail OpenEdition.

Abstract : Search engines users apply complex search behaviours such as query reformulation and multitasking search to satisfy their information needs. These search behaviours may be observed through query logs, and constitute clues allowing a better understanding of users’ needs. In this perspective, it is decisive to group queries related to the same information need into a unique search session. We propose an automatic session detection method exploiting the WIKIPEDIA documents collection, based on the similarity between the results returned for each query pair to estimate the similarity between queries. This method shows better performance than both temporal and lexical approaches traditionally used for successive session detection, and can be applied as well to multitasking search session detection. These experiments were conducted on a dataset originating from the OpenEdition Web portal.

Mots clés : Recherche d’information, détection automatique de sessions de recherche, analyse de journal de requêtes

Keywords : Information retrieval, automatic search session detection, query log analysis