talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une Approche de Recherche d’Information Structurée fondée sur la Correction d’Erreurs à l’Indexation des Documents

Arnaud Renard, Sylvie Calabretto, Béatrice Rumpler

Résumé : Dans cet article, nous nous sommes intéressés à la prise en compte des erreurs dans les contenus textuels des documents XML. Nous proposons une approche visant à diminuer l’impact de ces erreurs sur les systèmes de Recherche d’Information (RI). En effet, ces systèmes produisent des index associant chaque document aux termes qu’il contient. Les erreurs affectent donc la qualité des index ce qui conduit par exemple à considérer à tort des documents mal indexés comme non pertinents (resp. pertinents) vis-à-vis de certaines requêtes. Afin de faire face à ce problème, nous proposons d’inclure un mécanisme de correction d’erreurs lors de la phase d’indexation des documents. Nous avons implémenté cette approche au sein d’un prototype que nous avons évalué dans le cadre de la campagne d’évaluation INEX.

Abstract : In this paper, we focused on errors in the textual content of XML documents. We propose an approach to reduce the impact of these errors on Information Retrieval (IR) systems. Indeed, these systems rely on indexes associating each document to corresponding terms. Indexes quality is negatively affected by those misspellings. These errors makes it difficult to later retrieve documents (or parts of them) in an effective way during the querying phase. In order to deal with this problem we propose to include an error correction mechanism during the indexing phase of documents. We achieved an implementation of this spelling aware information retrieval system which is currently evaluated over INEX evaluation campaign documents collection.

Mots clés : Recherche d’information, dysorthographie, correction d’erreurs, xml

Keywords : Information retrieval, misspellings, error correction, xml