@inproceedings{Bonzi-Guiggi-Bechet-Ramisch-Favre:CORIA-TALN-2026:2026,
    author = "Bonzi, Doria and Guiggi, Alexandre and Bechet, Frederic and Ramisch, Carlos and Favre, Benoit",
    title = "CareMedEval : Evaluer l'Analyse Critique et le Raisonnement dans le Domaine Biom\'edical",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 33\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles.  Volume 2 : articles d\'ej\`a publi\'es",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "3-4",
    note = "",
    abstract = "L'analyse critique de litt\'erature scientifique est essentielle en biom\'edecine. Les grands mod\`eles de langage (LLM) offrent un soutien prometteur, mais leur fiabilit\'e reste limit\'ee, notamment pour le raisonnement dans des domaines sp\'ecialis\'es. Nous pr\'esentons CareMedEval, un jeu de donn\'ees pour \'evaluer les LLM sur des t\^aches d{\textquoteright}\'evaluation critique et de raisonnement biom\'edical. Issu d{\textquoteright}examens de m\'edecine fran\c{c}ais, il contient 534 questions bas\'ees sur 37 articles scientifiques. Contrairement aux benchmarks existants, CareMedEval \'evalue explicitement la lecture critique et le raisonnement fond\'e sur des articles scientifiques. Le benchmarking de mod\`eles LLM g\'en\'eralistes et sp\'ecialis\'es montre la difficult\'e de la t\^ache : les mod\`eles open-source et commerciaux d\'epassent rarement un Exact Match Rate (EMR) de 0,5, m\^eme si la g\'en\'eration de tokens de raisonnement am\'eliore les r\'esultats. Les questions sur les limites des \'etudes et l{\textquoteright}analyse statistique restent particuli\`erement difficiles. CareMedEval fournit un benchmark pour le raisonnement et guide le d\'eveloppement d{\textquoteright}outils automatis\'es d{\textquoteright}\'evaluation critique.",
    keywords = "\'evaluation critique, raisonnement, biom\'edical, jeu de donn\'ees sp\'ecifique, LLM",
    url = "36.pdf"
}