Les benchmarks sont une source de biais des LLM : MMLU, CommonSenseQA et MGSM au microscope

Fanny Ducel, Lucie Digoin-Caparros, Ibrahim Al Kotob, Shayan Ahmed Shariff, Binesh Arakkal Remesh, Aurélie Névéol, Karën Fort

Résumé : L’évaluation est essentielle au développement et à l’utilisation des systèmes de TAL. Les benchmarks permettent d’évaluer et de comparer des systèmes, mais sont également utilisés comme corpus d’entraînement et de validation. Dans ce papier, nous cherchons à caractériser les « connaissances du monde » mises en avant par les benchmarks, en proposant le premier audit détaillé et indépendant focalisé sur trois benchmarks populaires de LLM : MMLU, CommonSenseQA et MGSM. Avec des annotations manuelles qualitatives et des analyses automatiques quantitatives, nous mettons au jour la présence de biais explicites et implicites dans ces benchmarks, allant de déséquilibres représentationnels à des déclarations ouvertement discriminantes. Nos résultats montrent que les pratiques d’évaluations en TAL posent de nombreux problèmes de qualité, notamment de représentativité, de neutralité et de rigueur, et qu'elles encouragent des contenus néfastes. Enfin, nous proposons des pistes pour une évaluation plus éthique. Attention : cet article contient des exemples offensants.

Mots clés : biais, stéréotype, évaluation, benchmark, LLM, audit

Téléchargement :
[article]
[bibtex]

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Les benchmarks sont une source de biais des LLM : MMLU, CommonSenseQA et MGSM au microscope

Fanny Ducel, Lucie Digoin-Caparros, Ibrahim Al Kotob, Shayan Ahmed Shariff, Binesh Arakkal Remesh, Aurélie Névéol, Karën Fort