Identification de mesures d'évaluation fiables pour la révision de textes scientifiques
Léane Jourdan, Florian Boudin, Nicolas Hernandez, Richard Dufour
Résumé : L'évaluation de la révision des textes scientifiques reste un défi, car les métriques traditionnelles telles que ROUGE et BERTScore se concentrent sur la similarité à une référence plutôt que sur les améliorations réalisées. Nous analysons et identifions les limites de ces métriques et explorons des méthodes d'évaluation alternatives qui s'alignent mieux sur le jugement humain. Nous évaluons d'abord manuellement différentes révisions pour estimer leur qualité. Ensuite, nous examinons la possibilité d'utiliser des métriques d'évaluation sans référence provenant de domaines connexes du traitement automatique des langues (TAL) ainsi que des approches GML en tant que juge. Nos résultats montrent que GMLs évaluent efficacement le suivi des instructions mais peinent à évaluer l'acceptabilité, alors que les métriques spécifiques au domaine fournissent des informations complémentaires. Nous recommandons une approche hybride combinant l'évaluation GML en tant que juge et les mesures spécifiques à la tâche offrant l'évaluation la plus fiable de la qualité de la révision.
Mots clés : révision de texte, article scientifique, évaluation, métriques.