talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Intégration de la similarité entre phrases comme critère pour le résumé multi-document

Maâli Mnasri, Gaël de Chalendar, Olivier Ferret

Résumé : À la suite des travaux de Gillick & Favre (2009), beaucoup de travaux portant sur le résumé par extraction se sont appuyés sur une modélisation de cette tâche sous la forme de deux contraintes antagonistes : l’une vise à maximiser la couverture du résumé produit par rapport au contenu des textes d’origine tandis que l’autre représente la limite du résumé en termes de taille. Dans cette approche, la notion de redondance n’est prise en compte que de façon implicite. Dans cet article, nous reprenons le cadre défini par Gillick & Favre (2009) mais nous examinons comment et dans quelle mesure la prise en compte explicite de la similarité sémantique des phrases peut améliorer les performances d’un système de résumé multi-document. Nous vérifions cet impact par des évaluations menées sur les corpus DUC 2003 et 2004.

Mots clés : résumé automatique, ILP, clustering, similarité sémantique.