Détection des contaminations de LLM par extraction de données : une revue de littérature pratique
Pierre Lepagnol, Thomas Gerald, Sahar Ghannay, Christophe Servan, Sophie Rosset
Résumé : Cet état de l'art examine le problème de la contamination des données d'entraînement dans les grands modèles de langue (LLM). Ce phénomène se produit lorsque les modèles sont évalués sur des données qu'ils ont déjà rencontrées durant leur entraînement, créant une fausse impression de performance. Cette étude propose une synthèse pratique pour la communauté scientifique du traitement automatique des langues (TAL). Nous présentons un cadre d'analyse qui distingue différents niveaux de contamination ainsi que différentes méthodes classées selon l'accès au modèle (White/Gray/BlackBox) et les techniques utilisées (Similarité/Probabilité/Extraction). Nous explorons particulièrement les méthodes d'extraction de données de LLM, les approches techniques, les mesures de performance et leurs limites. Dans une perspective pratique, nous avons synthétisé ces méthodes sous la forme d'un arbre de décision pour sélectionner la méthode de détection de contamination adéquate.
Mots clés : contamination des données, grands modèles de langue, inférence d'appartenance, extraction de données, détection de contamination