Étude comparative de réponses humaines et de grands modèles de langue à des QCM en pharmacie
Ricardo Rodriguez, Stéphane Huet, Benoit Favre, Mickael Rouvier
Résumé : Cet article propose d'étudier les réponses générées par plusieurs Grands Modèles de Langue à un ensemble de Questions à Choix Multiple en pharmacie. Ces réponses sont comparées aux réponses données par des étudiants, afin de comprendre quelles sont les questions difficiles pour les modèles par rapport aux humains et pour quelles raisons. Nous utilisons les logits internes des modèles pour construire des distributions de probabilité et analyser les caractéristiques principales qui déterminent la difficulté des questions via une approche statistique. Nous apportons aussi une extension du jeu de données FRENCH MEDMCQA avec des paires question-réponses en pharmacie, enrichies avec les réponses des étudiants, la ponctuation assignée aux réponses, les thématiques cliniques correspondantes et des annotations manuelles sur la structure et certains traits sémantiques des questions.
Mots clés : question à choix multiples, grands modèles de langue, frenchmedmcqa, médical, pharmacologie