Approche méthodologique pour la génération de question-réponse portant sur plusieurs documents
Hui Huang, Julien Velcin, Yacine Kessaci
Résumé : Les systèmes de questions-réponses (QA) actuels ont du mal à synthétiser les preuves dispersées dans les documents. Alors que les jeux de données QA scientifiques existants se concentrent sur le raisonnement portant sur un document seul, la tâche de recherche peut exiger l'intégration de contenus provenant de plusieurs articles. Pour répondre à cette limitation, nous proposons un cadre pour créer un jeu de données QA multi-documents qui s'appuie sur l'analyse de graphes de citations afin de regrouper des articles connexes et utilise un grand modèle de langage (LLM) pour générer des questions complexes. Des expériences préliminaires réalisées sur 23 882 articles démontrent la faisabilité de ce cadre, produisant 238 paires QA qui nécessitent une synthèse sur plusieurs articles. D'autres expériences indiquent que la recherche d'information dense actuelle obtient un rappel limité pour ces questions multi-documents, soulignant le besoin de mécanismes de recherche d'information et de raisonnement plus avancés. Il s'agit d'un projet en cours d'élaboration. Nous visons à terme à fournir un jeu de données QA robuste qui capture la complexité et la nature interconnectée des publications scientifiques, ouvrant la voie à des évaluations plus réalistes des systèmes de QA.
Mots clés : Questions-réponses multi-documents, Réseau de citations, Détection de communautés, Grande modèles de langage.