MOSAIC : Mélange d'experts pour la détection de textes artificiels
Matthieu Dubois, Yvon François, Pablo Piantanida
Résumé : La diffusion auprès du grand public de grands modèles de langue facilite la production de contenus nuisibles, médisants, malhonnêtes ou falsifiés. En réponse, plusieurs solutions ont été proposées pour identifier les textes ainsi produits, en traitant le problème comme une tâche de classification binaire. Les premières approches reposent sur l'analyse d'un document par un modèle détecteur, avec l'hypothèse qu'un faible score de perplexité indique que le contenu est artificiel. Des méthodes plus récentes proposent de comparer les distributions de probabilité calculées par deux modèles. Cependant, s'appuyer sur une paire fixe de modèles peut fragiliser les performances. Nous étendons ces méthodes en combinant plusieurs modèles et en développant une approche théoriquement fondée pour exploiter au mieux chacun d'entre eux.
Mots clés : Mélange d'experts, Génération de Textes, Détection de textes artificiels, Théorie de l'information