talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Réévaluation de FACTUM : étude de réplication et analyse inter-modèles sur des modèles de langage open-weight

Hichem Semmar, Eric SanJuan

Résumé : Cet article réévalue FACTUM, un cadre mécanistique pour la détection des hallucinations de citation dans les systèmes de génération augmentée par récupération à réponses longues. Nous répliquons et étendons son évaluation sur des modèles open-weight, en comparant LLaMA 3.2 3B, LLaMA 3.1 8B, Ministral 3B et Ministral 8B. Nous étudions à la fois des baselines avec juge externe et avec auto-évaluation du modèle, tout en clarifiant la convention FACTUM selon laquelle les citations incorrectes sont traitées comme classe positive par les métriques sklearn. Nos résultats montrent que les tendances FACTUM sont largement reproductibles sur LLaMA, tandis que Ministral reste exploitable mais obtient des scores légèrement inférieurs. Ces résultats suggèrent que les signaux de détection se transfèrent seulement partiellement entre familles de modèles et restent sensibles à la calibration, à la tokenisation, à l’architecture et aux choix d’implémentation. Nous discutons enfin la faisabilité d’utiliser CAS, BAS, PFS et PAS comme indicateurs de confiance pour des systèmes RAG industriels. Lien du Github: https://anonymous.4open.science/r/FACTUM_Mistral-AB8F/README.md

Mots clés : ['modèles de langage', 'hallucination de citation', 'génération augmentée par récupéra- tion', 'interprétabilité', 'réplication.']