talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Tâches et systèmes de détection automatique des réponses correctes dans des QCMs liés au domaine médical : Présentation de la campagne DEFT 2023

Yanis Labrak, Adrien Bazoge, Béatrice Daille, Richard Dufour, Emmanuel Morin, Mickael Rouvier

Résumé : L'édition 2023 du DÉfi Fouille de Textes (DEFT) s'est concentrée sur le développement de méthodes permettant de choisir automatiquement des réponses dans des questions à choix multiples (QCMs) en français. Les approches ont été évaluées sur le corpus FrenchMedMCQA, intégrant un ensemble de QCMs avec, pour chaque question, cinq réponses potentielles, dans le cadre d'annales d'examens de pharmacie.Deux tâches ont été proposées. La première consistait à identifier automatiquement l'ensemble des réponses correctes à une question. Les résultats obtenus, évalués selon la métrique de l'Exact Match Ratio (EMR), variaient de 9,97% à 33,76%, alors que les performances en termes de distance de Hamming s'échelonnaient de 24,93 à 52,94. La seconde tâche visait à identifier automatiquement le nombre exact de réponses correctes. Les résultats, quant à eux, étaient évalués d'une part avec la métrique de F1-Macro, variant de 13,26% à 42,42%, et la métrique (Accuracy), allant de 47,43% à 68,65%. Parmi les approches variées proposées par les six équipes participantes à ce défi, le meilleur système s'est appuyé sur un modèle de langage large de type LLaMa affiné en utilisant la méthode d'adaptation LoRA.

Mots clés : Question à choix multiples, Domaine médical, Modèle de langue large, TALN