talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Étude critique du corpus CNN/DailyMail pour le résumé automatique

Fanny Bachey, Christophe Rodrigues, Aurélien Bossard

Résumé : De nombreux modèles de génération et d'évaluation sont entraînés sur des corpus sans qu'il ait été démontré qu'ils étaient appropriés pour cette tâche. C'est pourquoi nous proposons l'étude critique des données de l'un des corpus les plus utilisés dans le domaine du résumé automatique : CNN/DailyMail. Nous montrons, par une analyse théorique, puis en comparant les résumés de référence du corpus et à des résumés écrits par des humains, que les résumés de référence de CNN/DailyMail ne correspondent pas à ce que doit être un résumé, et que le corpus n'est donc pas adapté à la tâche de résumé automatique.

Mots clés : Résumé automatique - CNN/DailMail - Qualité des données - Critique.