Ressource pour l'analyse des erreurs en simplification de textes : nouvelle taxonomie et collection de test

Benjamin Vendeville, Liana Ermakova, Pierre De Loor

Résumé : Le grand public est souvent confronté à des textes complexes qu'il n'a pas le temps ni l'expertise de comprendre pleinement. La simplification automatique de textes (SAT) contribue à rendre l'information plus accessible, mais ses méthodes d'évaluation n'ont pas suivi les avancées récentes en génération de texte. Des études ont montré que les métriques actuelles ne corrèlent pas avec la présence d'erreurs, soulignant le besoin d'un meilleur cadre d'évaluation. Cet article réduit ce manque en proposant une taxonomie des erreurs en simplification, un jeu de données parallèle de textes scientifiques simplifiés annotés manuellement selon cette taxonomie, et une analyse des modèles existants pour détecter et classifier ces erreurs. Ces contributions fournissent aux chercheurs les outils nécessaires pour mieux évaluer les erreurs en SAT et améliorer la qualité des textes simplifiés automatiquement.

Mots clés : Simplification de texte; Classification d'Erreurs; Hallucinations; TALN

Téléchargement :
[article]
[bibtex]

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Ressource pour l'analyse des erreurs en simplification de textes : nouvelle taxonomie et collection de test

Benjamin Vendeville, Liana Ermakova, Pierre De Loor