Évaluation des architectures RAG pour la synthèse orientée requête de corpus d'articles d'historiens
Thibault Gautheron
Résumé : La synthèse multi-documents orientée requête (QFS) constitue un cadre pertinent pour assister les historiens face à l'inflation documentaire. Cependant, l'application des architectures Retrieval-Augmented Generation (RAG) à des corpus d'articles d'historiens pose des défis spécifiques liés à la superposition de temporalités, à l'évolution des concepts et à la pluralité argumentative. À partir d'une baseline RAG appliquée à la revue Le Médiéviste et l'Ordinateur, nous menons une analyse qualitative exploratoire qui met en évidence trois patterns d'erreurs récurrents : biais de généralisation, dérive sémantique et confusion chronologique. En l'absence de résumés de référence, et face à l'inadéquation des métriques classiques pour capturer ces erreurs, nous présentons les premières briques d'un protocole d'évaluation hybride : une grille d'analyse experte structurée en cinq axes, et deux principes de métriques automatiques ciblant spécifiquement la dimension temporelle, une véracité temporelle par alignement source-synthèse et une cohérence chronologique multi-niveaux fondée sur le Tau de Kendall. Ces travaux préliminaires constituent un socle méthodologique pour des recherches ultérieures, notamment vers l'intégration de graphes de connaissances temporels.
Mots clés : Humanités numériques, Génération augmentée de récupération, Grands modèles de langage, Synthèse orientée requête