@inproceedings{Ducel-Digoin-Caparros-Al-Kotob-Ahmed-Shariff-Arakkal-Remesh-Neveol-Fort:CORIA-TALN-2026:2026,
    author = {Ducel, Fanny and Digoin-Caparros, Lucie and Al Kotob, Ibrahim and Ahmed Shariff, Shayan and Arakkal Remesh, Binesh and N\'ev\'eol, Aur\'elie and Fort, Kar\"en},
    title = "Les benchmarks sont une source de biais des LLM : MMLU, CommonSenseQA et MGSM au microscope",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 33\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles.  Volume 1 : articles scientifiques originaux",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "369-385",
    note = "",
    abstract = "L{\textquoteright}\'evaluation est essentielle au d\'eveloppement et \`a l{\textquoteright}utilisation des syst\`emes de TAL. Les benchmarks permettent d{\textquoteright}\'evaluer et de comparer des syst\`emes, mais sont \'egalement utilis\'es comme corpus d{\textquoteright}entra{\^\i}nement et de validation. Dans ce papier, nous cherchons \`a caract\'eriser les {\guillemotleft} connaissances du monde {\guillemotright} mises en avant par les benchmarks, en proposant le premier audit d\'etaill\'e et ind\'ependant focalis\'e sur trois benchmarks populaires de LLM : MMLU, CommonSenseQA et MGSM. Avec des annotations manuelles qualitatives et des analyses automatiques quantitatives, nous mettons au jour la pr\'esence de biais explicites et implicites dans ces benchmarks, allant de d\'es\'equilibres repr\'esentationnels \`a des d\'eclarations ouvertement discriminantes. Nos r\'esultats montrent que les pratiques d{\textquoteright}\'evaluations en TAL posent de nombreux probl\`emes de qualit\'e, notamment de repr\'esentativit\'e, de neutralit\'e et de rigueur, et qu'elles encouragent des contenus n\'efastes. Enfin, nous proposons des pistes pour une \'evaluation plus \'ethique. Attention : cet article contient des exemples offensants.",
    keywords = "biais, st\'er\'eotype, \'evaluation, benchmark, LLM, audit",
    url = "51.pdf"
}