MIRAGE : une bibliothèque de métriques pour évaluer les hallucinations dans les textes générés

Benjamin Vendeville, Liana Ermakova, Pierre De Loor, Jaap Kamps

Résumé : Les erreurs dans la génération de langage naturel, appelées hallucinations, restent un défi majeur dans des domaines tels que la santé ou la communication scientifique. Si plusieurs métriques ont été proposées pour les détecter, comme FactCC, QAGS, FEQA et FactAcc, elles sont souvent indisponibles, difficiles à reproduire ou incompatibles avec les workflows modernes. Nous présentons \textbf{MIRAGE}, une bibliothèque Python open-source qui réimplémente ces métriques au sein d'un cadre unifié construit sur Hugging Face, offrant modularité, reproductibilité et entrées/sorties standardisées. En adhérant aux principes FAIR, MIRAGE accélère l'expérimentation et soutient le développement de futures métriques. Nous le validons en réévaluant les métriques existantes sur des jeux de données de référence, démontrant des performances comparables avec une meilleure transparence.

Mots clés : Hallucination ; TALN ; Métriques automatiques

Téléchargement :
[article]
[bibtex]

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

MIRAGE : une bibliothèque de métriques pour évaluer les hallucinations dans les textes générés

Benjamin Vendeville, Liana Ermakova, Pierre De Loor, Jaap Kamps