Évaluation des performances des systèmes à base de LLM : métriques globales et locales au service de l’adoption
Jean-Baptiste Juin, Thomas Leguere
Résumé : L’évaluation des systèmes à base de grands modèles de langage (LLM) en contexte applicatif reste un défi ouvert : les sorties génératives sont difficiles à évaluer objectivement, et les systèmes de recherche sémantique dense ne disposent d’aucun mécanisme d’abstention natif. Nous présentons llm-app-metrics, un cadre méthodologique unifié fondé sur la comparaison de distributions de scores entre prédictions correctes (ρ+) et incorrectes (ρ−). Ce principe s’applique à la confiance en classification (logprobs) comme à la confiance en retrieval (scores cosinus). Un pipeline bayésien complet permet de produire un modèle de confiance calibré et sérialisable, intégrable en production. Les expérimentations sur des benchmarks publics (mMARCO) et des données de production réelles valident la séparabilité des distributions et l’opérationnalité du pipeline. Nous explorons par ailleurs les limites et les performances de la génération de données synthétiques pour automatiser la chaine d'évaluation d'un système basé sur l'usage de LLMs.
Mots clés : "['modèles de langage', 'RAG', 'métriques de confiance', 'distribution de scores', 'données synthétiques', ""recherche d'information""]"