talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

CareMedEval : Evaluer l'Analyse Critique et le Raisonnement dans le Domaine Biomédical

Doria Bonzi, Alexandre Guiggi, Frederic Bechet, Carlos Ramisch, Benoit Favre

Résumé : L'analyse critique de littérature scientifique est essentielle en biomédecine. Les grands modèles de langage (LLM) offrent un soutien prometteur, mais leur fiabilité reste limitée, notamment pour le raisonnement dans des domaines spécialisés. Nous présentons CareMedEval, un jeu de données pour évaluer les LLM sur des tâches d’évaluation critique et de raisonnement biomédical. Issu d’examens de médecine français, il contient 534 questions basées sur 37 articles scientifiques. Contrairement aux benchmarks existants, CareMedEval évalue explicitement la lecture critique et le raisonnement fondé sur des articles scientifiques. Le benchmarking de modèles LLM généralistes et spécialisés montre la difficulté de la tâche : les modèles open-source et commerciaux dépassent rarement un Exact Match Rate (EMR) de 0,5, même si la génération de tokens de raisonnement améliore les résultats. Les questions sur les limites des études et l’analyse statistique restent particulièrement difficiles. CareMedEval fournit un benchmark pour le raisonnement et guide le développement d’outils automatisés d’évaluation critique.

Mots clés : évaluation critique, raisonnement, biomédical, jeu de données spécifique, LLM