@inproceedings{Zanella-Baril:CORIA-TALN:2025,
    author = "Zanella, Laura and Baril, Ambroise",
    title = "La confiance de Mistral-7B est-elle justifi\'ee ? Une \'evaluation en auto-estimation pour les questions biom\'edicales",
    booktitle = "Actes de CORIA-TALN-RJCRI-RECITAL 2025. Actes des 32\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles (TALN),  volume 1 : articles scientifiques originaux",
    month = "6",
    year = "2025",
    address = "Marseille, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "468-477",
    note = "",
    abstract = "\'Evaluer la fiabilit\'e des grands mod\`eles de langage (LLMs) dans des t\^aches de question-r\'eponse biom\'edicale est essentiel pour leur d\'eploiement en toute s\'ecurit\'e dans des contextes m\'edicaux. Dans cette \'etude, nous examinons si Mistral-7B est capable d{\textquoteright}estimer avec pr\'ecision la confiance qu{\textquoteright}il accorde \`a ses propres r\'eponses, en comparant ses scores de similarit\'e auto-attribu\'es \`a la similarit\'e- cosinus avec des r\'eponses de r\'ef\'erence. Nos r\'esultats montrent que Mistral-7B pr\'esente une forte tendance \`a la surconfiance, attribuant syst\'ematiquement des scores de similarit\'e \'elev\'es, m\^eme lorsque la qualit\'e des r\'eponses varie. L{\textquoteright}introduction de la g\'en\'eration augment\'ee par r\'ecup\'eration (RAG) am\'eliore la pr\'ecision des r\'eponses, comme en t\'emoignent les valeurs plus \'elev\'ees de similarit\'e- cosinus, mais n{\textquoteright}am\'eliore pas significativement la calibration de la confiance. Bien que RAG r\'eduise la surconfiance et am\'eliore la corr\'elation entre les scores de similarit\'e pr\'edits et r\'eels, le mod\`ele continue de surestimer syst\'ematiquement la qualit\'e de ses r\'eponses. Ces r\'esultats soulignent la n\'ecessit\'e de m\'ecanismes d{\textquoteright}estimation de confiance plus efficaces, afin d{\textquoteright}aligner les auto-\'evaluations du mod\`ele sur la pr\'ecision r\'eelle de ses r\'eponses. Notre \'etude montre l{\textquoteright}importance d{\textquoteright}affiner les techniques de calibration des LLMs pour renforcer leur fiabilit\'e dans les applications biom\'edicales.",
    keywords = "Mistral-7B, Grands mod\`eles de langage (LLM), Calibration des LLM, Auto- \'evaluation des LLM, G\'en\'eration augment\'ee par r\'ecup\'eration (RAG)",
    url = "https://talnarchives.atala.org/TALN/TALN-2025/19.pdf"
}