talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

UC-FIRe: Approche efficace pour la recherche d'informations non supervisée

Maxime Hanus, Quentin Guignard, Christophe Rodrigues

Résumé : Nous présentons un modèle de recherche d'informations non supervisé conciliant efficacité et faible coût computationnel, fonctionnant uniquement sur CPU. Plutôt que de remplacer BM25, nous l'améliorons en réduisant l'écart lexical. Notre méthode repose sur l'entraînement de vecteurs de mots FastText et la construction de matrices de coexistence et de similarité pour regrouper des mots interchangeables en clusters. Documents et requêtes sont réécrits avec ces clusters, améliorant la pertinence des résultats sans alourdir l'inférence. Expérimenté sur plusieurs corpus de BEIR, notre modèle surpasse des approches plus coûteuses en calcul et obtient de meilleures performances que BM25 sur diverses métriques, tout en conservant une vitesse d'inférence similaire. Cette recherche démontre que notre méthode offre une alternative pratique, scalable et économique aux modèles denses et hybrides, facilitant son adoption dans des systèmes de recherche réels. UC-FIRe est disponible publiquement : https://github.com/Limekaaa/UC-FIRe.

Mots clés : Recherche d'informations non supervisée, Recherche d'informations, réduction de l'écart lexical, amélioration de BM25, plongements de mots, regroupement de mots, modèles de recherche efficient.