talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Comment évaluer un grand modèle de langue dans le domaine médical en français ?

Christophe Servan, Cyril Grouin, Aurélie Névéol, Pierre Zweigenbaum

Résumé : Les récentes avancées en Traitement Automatique des Langues liées aux grands modèles de langue (LLM) auto-régressifs investissent également les domaines spécialisés dont celui de la santé. Cette étude examine les questions qui se posent dans l’évaluation de LLM appliqués au domaine de la santé en se focalisant sur le français. Après un bref tour d’horizon des tâches et des données d’évaluation disponibles pour ce domaine de spécialité, l’article examine le mode d’évaluation des LLM dans des tâches de nature discriminante (détection d’entités nommées, classification de textes) et génératives (résumé de comptes rendus, génération de cas cliniques). L’article n’a pas vocation à rapporter une évaluation concrète, mais à discuter et préparer la méthodologie pour le faire.

Mots clés : Grands Modèles de Langue, Santé, Évaluation, État de l’art.