Générer pour mieux tester : vers des datasets diversifiés pour une évaluation fiable des systèmes de Question Answering
Louis Jourdain, Skander Hellal
Résumé : L’évaluation des modèles d’IA générative repose sur des datasets contenant des valeurs de référence attendues pour une entrée donnée. Cependant, la constitution de ces jeux de données est un processus complexe et coûteux. Cet article explore la génération automatique de datasets de questions diversifiées pour tester notamment les systèmes de RAG (Retrieval Augmented Generation). Nous proposons un cadre méthodologique combinant modèles de langage à grande échelle (LLMs) et techniques traditionnelles de traitement du langage naturel (NLP) et de data science, incluant les graphes de connaissances, la similarité sémantique voire le topic modeling. L’approche proposée repose sur un système modulaire exploitant diverses sources documentaires et intégrant des mécanismes avancés de filtrage afin de garantir la qualité et la diversité des questions produites.
Mots clés : génération de données, évaluation, RAG, LLMs, NLP, diversité, dataset synthétique