talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extension de requêtes par lien sémantique nom-verbe acquis sur corpus

Vincent Claveau, Pascale Sébillot

Résumé : En recherche d’information, savoir reformuler une idée par des termes différents est une des clefs pour l’amélioration des performances des systèmes de recherche d’information (SRI) existants. L’un des moyens pour résoudre ce problème est d’utiliser des ressources sémantiques spécialisées et adaptées à la base documentaire sur laquelle les recherches sont faites. Nous proposons dans cet article de montrer que les liens sémantiques entre noms et verbes appelés liens qualia, définis dans le modèle du Lexique génératif (Pustejovsky, 1995), peuvent effectivement améliorer les résultats des SRI. Pour cela, nous extrayons automatiquement des couples nom-verbe en relation qualia de la base documentaire à l’aide du système d’acquisition ASARES (Claveau, 2003a). Ces couples sont ensuite utilisés pour étendre les requêtes d’un système de recherche. Nous montrons, à l’aide des données de la campagne d’évaluation Amaryllis, que cette extension permet effectivement d’obtenir des réponses plus pertinentes, et plus particulièrement pour les premiers documents retournés à l’utilisateur.

Abstract : In the information retrieval field, managing the equivalent reformulations of a same idea is a key point to improve the performances of existing retrieval systems. One way to reach this goal is to use specialised semantic resources that are suited to the document database on which the queries are processed. In this paper, we show that the semantic links between nouns and verbs called qualia links, defined in the Generative lexicon framework (Pustejovsky, 1995), enable us to improve the results of retrieval systems. To achieve this goal, we automatically extract from the document database noun-verb pairs that are in qualia relation with the acquisition system ASARES (Claveau, 2003a). These pairs are then used to expand the queries of a retrieval system. With the help of the Amaryllis evaluation campaign data, we show that these expansions actually lead to better results, especially for the first documents proposed to the user.

Mots clés : Lexique sémantique, acquisition sur corpus, recherche d’information, Lexique génératif, extension de requête

Keywords : Semantic lexicon, corpus-based acquisition, information retrieval, Generative lexicon, query expansion