talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Tokens ou Concepts ? Exploration de l’utilisation des autoencodeurs clairsemés pour SPLADE

Yuxuan Zong, Mathias Vast, Basile Van Cooten, Laure Soulier, Benjamin Piwowarski

Résumé : Les modèles de RI neuronaux parcimonieux, tels que SPLADE, offrent un excellent compromis entre efficacité et performance. Cependant, ils reposent sur le vocabulaire du modèle de base, ce qui peut nuire aux performances (polysémie et synonymie) et poser des défis pour les usages multilingues et multimodaux. Pour y remédier, nous proposons de remplacer le vocabulaire du modèle de base par un espace latent de concepts sémantiques appris à l’aide d’auto-encodeurs parcimonieux, ou SAE. Dans cet article, nous étudions la compatibilité de ces deux concepts et montrons que SAE-SPLADE atteint des performances comparables à celles de SPLADE, à la fois sur des tâches dans le domaine et hors domaine, tout en offrant une meilleure efficacité.

Mots clés : Recherche d'Information, Modéles de RI neuronaux parcimonieux, SPLADE, Auto-Encodeur Parcimonieux