Quand le score F1 cache des métriques différentes : le cas de la détection de citations
Kirill Milintsevich, Agnès Saulnier
Résumé : L’évaluation de la détection de citations repose souvent sur des scores agrégés tels que le score F1. Pourtant, des protocoles d’évaluation différents peuvent produire des scores similaires tout en mesurant des propriétés distinctes des prédictions, ou au contraire conduire à des scores différents pour un même ensemble de sorties. Cet article compare plusieurs métriques et protocoles d’évaluation utilisés dans la littérature à partir d’un cadre descriptif fondé sur quatre dimensions (unité évaluée, appariement, comparaison locale et agrégation). Nous analysons empiriquement l’impact de ces choix en appliquant différentes métriques à un même ensemble de prédictions, sur des configurations d’erreurs contrôlées et sur des données réelles issues du corpus FRACAS. Les résultats montrent que les scores obtenus peuvent varier sensiblement selon la métrique retenue. Ces enjeux deviennent particulièrement importants dans le cas des modèles génératifs.
Mots clés : Détection de citations,évaluation,score F1,modèles génératifs