Correction automatique de textes d'apprenants et certification linguistique en français~: évaluation de la généralisabilité, de l'accord et de la validité
Rodrigo Wilkens, Rémi Cardon, Vincent Folny, Thomas François
Résumé : Dans le domaine de la correction automatique de textes (CAT), les pratiques d'évaluation comparatives ont favorisé des approches minimalistes, en contraste avec les recommandations de protocoles d'évaluation tels que le cadre de validation basé sur l'argumentation (ABV). Celui-ci préconise une évaluation multidimensionnelle des systèmes, notamment dans le contexte des tests linguistiques à forts enjeux. Dans cet article, nous présentons une version améliorée et plus concrète du cadre ABV, intégrant une analyse de l'équité, des corrélations avec des caractéristiques linguistiques, une évaluation des erreurs de prédiction et l'accord entre les modèles et les correcteurs humains. En appliquant ce cadre à la CAT en français, nous comparons 8 architectures de modèles sur un corpus de 27~000 rédactions d'examen (deux~correcteurs chacune) et un corpus de généralisation de 961~rédactions (au moins neuf~correcteurs chacune). Nos analyses illustrent les avantages de l'application du cadre ABV pour mieux comprendre les capacités et les limites des modèles de CAT, tout en faisant progresser l'état de l'art pour la CAT en français.
Mots clés : correction automatique de textes, certification en langues, cadre de validation basé sur l'argumentation, français, TAL