@inproceedings{Semmar-SanJuan:CORIA-TALN-2026:2026,
    author = "Semmar, Hichem and SanJuan, Eric",
    title = "R\'e\'evaluation de FACTUM : \'etude de r\'eplication et analyse inter-mod\`eles sur des mod\`eles de langage open-weight",
    booktitle = "Actes de CORIA-TALN 2026. Actes de la session industrielle de CORIA-TALN 2026",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "52-61",
    note = "",
    abstract = "Cet article r\'e\'evalue FACTUM, un cadre m\'ecanistique pour la d\'etection des hallucinations de citation dans les syst\`emes de g\'en\'eration augment\'ee par r\'ecup\'eration \`a r\'eponses longues. Nous r\'epliquons et \'etendons son \'evaluation sur des mod\`eles open-weight, en comparant LLaMA 3.2 3B, LLaMA 3.1 8B, Ministral 3B et Ministral 8B. Nous \'etudions \`a la fois des baselines avec juge externe et avec auto-\'evaluation du mod\`ele, tout en clarifiant la convention FACTUM selon laquelle les citations incorrectes sont trait\'ees comme classe positive par les m\'etriques sklearn. Nos r\'esultats montrent que les tendances FACTUM sont largement reproductibles sur LLaMA, tandis que Ministral reste exploitable mais obtient des scores l\'eg\`erement inf\'erieurs. Ces r\'esultats sugg\`erent que les signaux de d\'etection se transf\`erent seulement partiellement entre familles de mod\`eles et restent sensibles \`a la calibration, \`a la tokenisation, \`a l{\textquoteright}architecture et aux choix d{\textquoteright}impl\'ementation. Nous discutons enfin la faisabilit\'e d{\textquoteright}utiliser CAS, BAS, PFS et PAS comme indicateurs de confiance pour des syst\`emes RAG industriels.

Lien du Github: https://anonymous.4open.science/r/FACTUM\\_Mistral-AB8F/README.md",
    keywords = "['mod\`eles de langage', 'hallucination de citation', 'g\'en\'eration augment\'ee par r\'ecup\'era- tion', 'interpr\'etabilit\'e', 'r\'eplication.']",
    url = "1007.pdf"
}
