Peut-on faire confiance aux juges ? Validation de méthodes d'évaluation de la factualité par perturbation des réponses
Giovanni Gatti~Pinheiro, Sarra Gharsallah, Adèle Robaldo, Mariia Tokareva, Ilyana Guendouz, Raphaël Troncy, Paolo Papotti, Pietro Michiardi
Résumé : Évaluer la véracité des grands modèles de langage (LLMs) est essentiel pour de nombreuses applications. Cependant, nos outils d’évaluation sont-ils eux-mêmes fiables ? Malgré la prolifération des métriques de factualité, leur sensibilité et leur fiabilité restent peu étudiées. Cet article introduit un cadre de méta-évaluation qui teste systématiquement ces métriques en appliquant des corruptions contrôlées à des réponses de référence. Notre méthode génère des sorties classées selon des degrés connus de dégradation afin d’analyser comment les métriques capturent les variations subtiles de véracité. Nos expériences montrent que les méthodes disponibles dans les framework d’évaluation, telles que la métrique factual correctness de RAGAS, suivent mieux la dégradation que les approches de type LLM-as-judge. Nous proposons également une nouvelle variante de la métrique de factualité, à la fois compétitive et économique.
Mots clés : Évaluation de la factualité, grands modèles de langage (LLMs), question-réponse en domaine ouvert, LLM comme juge, fiabilité en traitement du langage naturel