talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Un corpus d'évaluation pour un système de simplification discursive

Rodrigo Wilkens, Amalia Todirascu

Résumé : Nous présentons un nouveau corpus simplifié, disponible en français pour l’évaluation d’un système de simplification discursive. Ce système utilise des chaînes de référence pour simplifier et pour préserver la cohésion textuelle après simplification. Nous présentons la méthodologie de collecte de corpus (via un formulaire, qui recueille les simplifications manuelles faites par des participants experts), les règles présentées dans le guide, une analyse des types de simplifications et une évaluation de notre corpus, par comparaison avec la sortie du système de simplification automatique.

Mots clés : simplification automatique discursive, chaînes de référence, corpus d’évaluation.