@inproceedings{Juin-Leguere:CORIA-TALN-2026:2026,
    author = "Juin, Jean-Baptiste and Leguere, Thomas",
    title = "\'Evaluation des performances des syst\`emes \`a base de LLM : m\'etriques globales et locales au service de l{\textquoteright}adoption",
    booktitle = "Actes de CORIA-TALN 2026. Actes de la session industrielle de CORIA-TALN 2026",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "40-51",
    note = "",
    abstract = "L{\textquoteright}\'evaluation des syst\`emes \`a base de grands mod\`eles de langage (LLM) en contexte applicatif reste un d\'efi ouvert : les sorties g\'en\'eratives sont difficiles \`a \'evaluer objectivement, et les syst\`emes de recherche s\'emantique dense ne disposent d{\textquoteright}aucun m\'ecanisme d{\textquoteright}abstention natif. Nous pr\'esentons llm-app-metrics, un cadre m\'ethodologique unifi\'e fond\'e sur la comparaison de distributions de scores entre
pr\'edictions correctes (\ensuremath{\rho}+) et incorrectes (\ensuremath{\rho}\ensuremath{-}). Ce principe s{\textquoteright}applique \`a la confiance en classification (logprobs) comme \`a la confiance en retrieval (scores cosinus). Un pipeline bay\'esien complet permet de produire un mod\`ele de confiance calibr\'e et s\'erialisable, int\'egrable en production. Les exp\'erimentations sur des benchmarks publics (mMARCO) et des donn\'ees de production r\'eelles valident la
s\'eparabilit\'e des distributions et l{\textquoteright}op\'erationnalit\'e du pipeline. Nous explorons par ailleurs les limites et les performances de la g\'en\'eration de donn\'ees synth\'etiques pour automatiser la chaine d'\'evaluation d'un syst\`eme bas\'e sur l'usage de LLMs.",
    keywords = "''['mod\`eles de langage', 'RAG', 'm\'etriques de confiance', 'distribution de scores', 'donn\'ees synth\'etiques', ''''recherche d'information'''']''",
    url = "1008.pdf"
}