@inproceedings{Jourdan-Boudin-Hernandez-Dufour:CORIA-TALN:2025,
    author = "Jourdan, L\'eane and Boudin, Florian and Hernandez, Nicolas and Dufour, Richard",
    title = "Identification de mesures d'\'evaluation fiables pour la r\'evision de textes scientifiques",
    booktitle = "Actes de CORIA-TALN-RJCRI-RECITAL 2025. Actes des 32\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles (TALN),  volume 1 : articles scientifiques originaux",
    month = "6",
    year = "2025",
    address = "Marseille, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "405-436",
    note = "",
    abstract = "L'\'evaluation de la r\'evision des textes scientifiques reste un d\'efi, car les m\'etriques traditionnelles telles que ROUGE et BERTScore se concentrent sur la similarit\'e \`a une r\'ef\'erence plut\^ot que sur les am\'eliorations r\'ealis\'ees. Nous analysons et identifions les limites de ces m\'etriques et explorons des m\'ethodes d'\'evaluation alternatives qui s'alignent mieux sur le jugement humain. Nous \'evaluons d'abord manuellement diff\'erentes r\'evisions pour estimer leur qualit\'e. Ensuite, nous examinons la possibilit\'e d'utiliser des m\'etriques d'\'evaluation sans r\'ef\'erence provenant de domaines connexes du traitement automatique des langues (TAL) ainsi que des approches GML en tant que juge. Nos r\'esultats montrent que GMLs \'evaluent efficacement le suivi des instructions mais peinent \`a \'evaluer l'acceptabilit\'e, alors que les m\'etriques sp\'ecifiques au domaine fournissent des informations compl\'ementaires. Nous recommandons une approche hybride combinant l'\'evaluation GML en tant que juge et les mesures sp\'ecifiques \`a la t\^ache offrant l'\'evaluation la plus fiable de la qualit\'e de la r\'evision.",
    keywords = "r\'evision de texte, article scientifique, \'evaluation, m\'etriques.",
    url = "https://talnarchives.atala.org/TALN/TALN-2025/38.pdf"
}