@inproceedings{Lemesle-Jourdan-Munson-Alain-Chevelu-Delhay-Lolive:CORIA-TALN-2026:2026,
    author = "Lemesle, Quentin and Jourdan, Leane and Munson, Daisy and Alain, Pierre and Chevelu, Jonathan and Delhay, Arnaud and Lolive, Damien",
    title = "*-PLUIE : une mesure personnalisable utilisant un LLM pour une meilleure \'evaluation",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 33\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles.  Volume 1 : articles scientifiques originaux",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "1-32",
    note = "",
    abstract = "L{\textquoteright}\'evaluation de la qualit\'e d{\textquoteright}un texte g\'en\'er\'e automatiquement repose souvent sur des m\'ethodes LLM-as-a-judge (LLM-juge). Bien qu{\textquoteright}efficaces, ces approches sont co\^uteuses en termes de temps de calcul et n\'ecessitent un post-traitement. Pour pallier ces limites, nous \'etendons ParaPLUIE, une mesure LLM-juge bas\'ee sur la perplexit\'e qui estime la confiance dans les r\'eponses {\guillemotleft} Yes/No {\guillemotright} sans g\'en\'erer de texte. Nous introduisons *-PLUIE, des variantes de ParaPLUIE sp\'ecifiques \`a la t\^ache, et \'evaluons leur alignement avec le jugement humain. Nos exp\'eriences montrent que *-PLUIE atteint des corr\'elations plus fortes que les autres mesures consid\'er\'ees avec les \'evaluations humaines tout en conservant un faible co\^ut de calcul.",
    keywords = "m\'etrique, \'evaluation, s\'emantique, LLM en tant que juge",
    url = "76.pdf"
}
