talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Résumé automatique multi-documents guidé par une base de résumés similaires

Florian Baud, Alexandre Aussem

Résumé : Le résumé multi-documents est une tâche difficile en traitement automatique du langage, ayant pour objectif de résumer les informations de plusieurs documents. Cependant, les documents sources sont souvent insuffisants pour obtenir un résumé qualitatif. Nous proposons un modèle guidé par un système de recherche d'informations combiné avec une mémoire non paramétrique pour la génération de résumés. Ce modèle récupère des candidats pertinents dans une base de données, puis génère le résumé en prenant en compte les candidats avec un mécanisme de copie et les documents sources. Cette mémoire non paramétrique est implémentée avec la recherche approximative des plus proches voisins afin de faire des recherches dans de grandes bases de données. Notre méthode est évalué sur le jeu de données MultiXScience qui regroupe des articles scientifiques. Enfin, nous discutons de nos résultats et des orientations possibles pour de futurs travaux.

Mots clés : Résumé multi, document, Augmentée par recherche, Guidage