Vers une évaluation rigoureuse des systèmes RAG : le défi de la due diligence
Grégoire Martinon, Alexandra Lorenzo~De~Brionne, Jérôme Bohard, Antoine Lojou, Damien Hervault, Nicolas Brunel
Résumé : L’IA générative se déploie dans des secteurs à haut risque comme la santé et la finance. L’architecture RAG (Retrieval Augmented Generation), qui combine modèles de langage (LLM) et moteurs de recherche, se distingue par sa capacité à générer des réponses à partir de corpus documentaires. Cependant, la fiabilité de ces systèmes en contextes critiques demeure préoccupante, notamment avec des hallucinations persistantes. Cette étude évalue un système RAG déployé chez un fonds d’investissement pour assister les due diligence. Nous proposons un protocole d’évaluation robuste combinant annotations humaines et LLM-Juge pour qualifier les défaillances du système, comme les hallucinations, les hors-sujets, les citations défaillantes ou les abstentions. Inspirés par la méthode Prediction Powered Inference (PPI), nous obtenons des mesures de performance robustes avec garanties statistiques. Nous fournissons le jeu de données complet. Nos contributions visent à améliorer la fiabilité et la scalabilité des protocoles d’évaluations de systèmes RAG en contexte industriel.
Mots clés : LLM, RAG, hallucinations, annotations, LLM-Juge, due diligence