talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Quand le score F1 cache des métriques différentes : le cas de la détection de citations

Kirill Milintsevich, Agnès Saulnier

Résumé : L’évaluation de la détection de citations repose souvent sur des scores agrégés tels que le score F1. Pourtant, des protocoles d’évaluation différents peuvent produire des scores similaires tout en mesurant des propriétés distinctes des prédictions, ou au contraire conduire à des scores différents pour un même ensemble de sorties. Cet article compare plusieurs métriques et protocoles d’évaluation utilisés dans la littérature à partir d’un cadre descriptif fondé sur quatre dimensions (unité évaluée, appariement, comparaison locale et agrégation). Nous analysons empiriquement l’impact de ces choix en appliquant différentes métriques à un même ensemble de prédictions, sur des configurations d’erreurs contrôlées et sur des données réelles issues du corpus FRACAS. Les résultats montrent que les scores obtenus peuvent varier sensiblement selon la métrique retenue. Ces enjeux deviennent particulièrement importants dans le cas des modèles génératifs.

Mots clés : Détection de citations,évaluation,score F1,modèles génératifs