@inproceedings{Milintsevich-Saulnier:CORIA-TALN-2026:2026,
    author = "Milintsevich, Kirill and Saulnier, Agn\`es",
    title = "Quand le score F1 cache des m\'etriques diff\'erentes : le cas de la d\'etection de citations",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 33\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles.  Volume 1 : articles scientifiques originaux",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "454-469",
    note = "",
    abstract = "L{\textquoteright}\'evaluation de la d\'etection de citations repose souvent sur des scores agr\'eg\'es tels que le score F1. Pourtant, des protocoles d{\textquoteright}\'evaluation diff\'erents peuvent produire des scores similaires tout en mesurant des propri\'et\'es distinctes des pr\'edictions, ou au contraire conduire \`a des scores diff\'erents pour un m\^eme ensemble de sorties. Cet article compare plusieurs m\'etriques et protocoles d{\textquoteright}\'evaluation utilis\'es dans la litt\'erature \`a partir d{\textquoteright}un cadre descriptif fond\'e sur quatre dimensions (unit\'e \'evalu\'ee, appariement, comparaison locale et agr\'egation). Nous analysons empiriquement l{\textquoteright}impact de ces choix en appliquant diff\'erentes m\'etriques \`a un m\^eme ensemble de pr\'edictions, sur des configurations d{\textquoteright}erreurs contr\^ol\'ees et sur des donn\'ees r\'eelles issues du corpus FRACAS. Les r\'esultats montrent que les scores obtenus peuvent varier sensiblement selon la m\'etrique retenue. Ces enjeux deviennent particuli\`erement importants dans le cas des mod\`eles g\'en\'eratifs.",
    keywords = "D\'etection de citations,\'evaluation,score F1,mod\`eles g\'en\'eratifs",
    url = "95.pdf"
}