La confiance de Mistral-7B est-elle justifiée ? Une évaluation en auto-estimation pour les questions biomédicales
Laura Zanella, Ambroise Baril
Résumé : Évaluer la fiabilité des grands modèles de langage (LLMs) dans des tâches de question-réponse biomédicale est essentiel pour leur déploiement en toute sécurité dans des contextes médicaux. Dans cette étude, nous examinons si Mistral-7B est capable d’estimer avec précision la confiance qu’il accorde à ses propres réponses, en comparant ses scores de similarité auto-attribués à la similarité- cosinus avec des réponses de référence. Nos résultats montrent que Mistral-7B présente une forte tendance à la surconfiance, attribuant systématiquement des scores de similarité élevés, même lorsque la qualité des réponses varie. L’introduction de la génération augmentée par récupération (RAG) améliore la précision des réponses, comme en témoignent les valeurs plus élevées de similarité- cosinus, mais n’améliore pas significativement la calibration de la confiance. Bien que RAG réduise la surconfiance et améliore la corrélation entre les scores de similarité prédits et réels, le modèle continue de surestimer systématiquement la qualité de ses réponses. Ces résultats soulignent la nécessité de mécanismes d’estimation de confiance plus efficaces, afin d’aligner les auto-évaluations du modèle sur la précision réelle de ses réponses. Notre étude montre l’importance d’affiner les techniques de calibration des LLMs pour renforcer leur fiabilité dans les applications biomédicales.
Mots clés : Mistral-7B, Grands modèles de langage (LLM), Calibration des LLM, Auto- évaluation des LLM, Génération augmentée par récupération (RAG)