Evaluation et analyse des performances des grands modèles de langue sur des épreuves d’examen de médecine français
Adrien Kuhnast, Loic Verlingue
Résumé : Les grands modèles de langue (GMLs) ont démontré leur capacité à répondre correctement à des questions de médecine sur des bases anglaises. Or, leur paramétrage par apprentissage profond les soumet au biais linguistique et doivent ainsi être évalués dans la langue de l’utilisateur. Nous avons évalué des GMLs sur 278 questions à choix multiples provenant d’examens de médecine (Lyon-Est 2024) de différentes spécialités et respectant les recommandations nationales. Nos résultats montrent que les GMLs sont aussi bons que les étudiants mais qu’il existe d’importantes variations selon les spécialités. Améliorer la consigne en précisant de s’appuyer sur les recommandations françaises modifie significativement les notes obtenues ce qui démontre la nécessité d’éprouver les GMLs selon différents contextes géographiques et linguistiques. Nous avons également analysé le type d’erreur que font les GMLs ce qui ouvre la porte à des améliorations plus ciblées.
Mots clés : Grand modèle de langue, biais linguistique, base de données française, type d’erreur