talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Génération augmentée de récupération pour les journaux historiques

The Trung Tran, Carlos-Emiliano González-Gallardo, Antoine Doucet

Résumé : La numérisation des archives historiques permet d’améliorer leur accessibilité et leur préservation à long terme, ouvrant ainsi de nouvelles perspectives de recherche interdisciplinaire. Cependant, l’ampleur des données disponibles pose des défis considérables. Diverses tâches de traitement automatique du langage naturel, telles que la reconnaissance d’entités nommées et la segmentation en articles, ont permis de faciliter l’accès du public en extrayant et structurant l’information. Néanmoins, l’agrégation des articles de presse historiques demeure largement inexplorée. Ce travail met en évidence le potentiel d’un cadre de génération augmentée de récupération (RAG), combinant des grands modèles de langage, un module de recherche sémantique et des bases de connaissances, pour agréger des articles de journaux historiques. Nous proposons également des métriques d’évaluation des systèmes génératifs ne nécessitant pas de vérité de terrain. Les premiers résultats de notre chaîne de traitement RAG sont prometteurs, démontrant que la récupération sémantique, renforcée par le reranking et la reconnaissance d’entités nommées, peut atténuer les erreurs d’océrisation et les fautes de frappe dans les requêtes.

Mots clés : Humanités numériques, Génération augmentée de récupération, Grands modèles de langage