talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Évaluation automatique du retour à la source dans un contexte historique long et bruité. Application aux débats parlementaires de la Troisième République française

Julien Perez, Aurélien Pellet, Marie Puren

Résumé : Dans le contexte de l’utilisation croissante des LLM, le besoin d’un retour efficace et automatique aux sources devient essentiel, en particulier pour les documents historiques. La capacité des LLM à identifier les sources pertinentes ne constitue plus seulement un maillon dans une chaîne où l’objectif final est la génération de réponses ; elle représente un enjeu fondamental de l’analyse, justifiant une évaluation à part entière. Quelles stratégies, quels modèles et quels paramètres offrent aux historiens les meilleures capacités d’exploration d’un corpus vaste et bruité ? Cet article propose une première tentative d’évaluation du retriever dans un cadre de RAG appliqué aux débats parlementaires de la Troisième République.

Mots clés : Humanités numériques, LLM, RAG, segmentation, retour à la source, documents historiques.