Génération augmentée de récupération multi-niveau pour répondre à des questions visuelles
Omar Adjali, Olivier Ferret, Sahar Ghannay, Hervé Le Borgne
Résumé : La tâche de réponse à des questions visuelles à propos d’entités nommées, qui s’appuie sur la désambiguïsation des entités à l’aide d’informations textuelles et visuelles ainsi que de connaissances, se décompose principalement en deux étapes : recherche d’information puis recherche des réponses, souvent abordées indépendamment l’une de l’autre. La génération augmentée de récupération (RAG) offre une solution à ce manque d’interaction en utilisant les réponses générées comme signal pour l’entraînement de la recherche d’information. Le RAG s’appuie généralement sur des passages pseudo-pertinents extraits de bases de connaissances externes, ce qui peut conduire à des erreurs au niveau de la génération de réponses. Dans ce travail, nous proposons une approche de RAG à plusieurs niveaux améliorant la génération de réponses en associant recherche d’entités et expansion de requête. Plus précisément, nous définissons une fonction de perte RAG permettant de conditionner la génération de réponses à la fois par la recherche d’entités et celle de passages. Cette approche permet de dépasser les travaux existants sur le jeu d’évaluation ViQuAE, démontrant ainsi que les connaissances qu’elle va chercher sont plus pertinentes pour la génération de réponses.
Mots clés : questions visuelles, multimodalité, recherche cross-modale, entités nommées