*-PLUIE : une mesure personnalisable utilisant un LLM pour une meilleure évaluation
Quentin Lemesle, Leane Jourdan, Daisy Munson, Pierre Alain, Jonathan Chevelu, Arnaud Delhay, Damien Lolive
Résumé : L’évaluation de la qualité d’un texte généré automatiquement repose souvent sur des méthodes LLM-as-a-judge (LLM-juge). Bien qu’efficaces, ces approches sont coûteuses en termes de temps de calcul et nécessitent un post-traitement. Pour pallier ces limites, nous étendons ParaPLUIE, une mesure LLM-juge basée sur la perplexité qui estime la confiance dans les réponses « Yes/No » sans générer de texte. Nous introduisons *-PLUIE, des variantes de ParaPLUIE spécifiques à la tâche, et évaluons leur alignement avec le jugement humain. Nos expériences montrent que *-PLUIE atteint des corrélations plus fortes que les autres mesures considérées avec les évaluations humaines tout en conservant un faible coût de calcul.
Mots clés : métrique, évaluation, sémantique, LLM en tant que juge