Restructuration de la Littérature Biomédicale dans une Architecture RAG pour la Génération de Réponse
Maël Lesavourey, Gilles Hubert
Résumé : Le Question Answering Biomédical (BQA) présente des défis spécifiques liés au vocabulaire spécialisé et aux structures sémantiques complexes de la littérature biomédicale. Les grands modèles de langage (LLMs) ont montré d'excellentes performances dans plusieurs tâches de compréhension et de génération du langage naturel. Cependant, leur efficacité tend à diminuer dans des domaines spécifiques, comme la biomédecine. Pour remédier à ce problème, les architectures de génération augmentée de récupération (RAG) sont devenues une approche prometteuse, combinant les avantages des méthodes de recherche d'information et des LLMs afin d'intégrer des connaissances spécifiques au domaine dans le processus de génération. Dans cet article, nous étudions le rôle du contexte dans l'amélioration des performances des pipelines RAG pour le BQA. Nous montrons que l'intégration d'un contexte basé sur une restructuration appropriée de la littérature influence positivement la qualité des réponses générées, en améliorant à la fois les métriques sémantiques et lexicales.
Mots clés : Génération assistée de récupération, Réponse aux questions biomédicales, Recherche d'information, Génération de réponses.