talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction de segments thématiques pour la construction de résumé multi-document orienté par un profil utilisateur

Sana-Leila Chaar

Résumé : Dans cet article, nous présentons une méthode qui vise à donner à un utilisateur la possibilité de parcourir rapidement un ensemble de documents par le biais d’un profil utilisateur. Un profil est un ensemble de termes structuré en sous-ensembles thématiquement homogènes. L’analyse des documents se fonde pour sa part sur l’extraction des passages les plus étroitement en relation avec ce profil. Cette analyse permet en particulier d’étendre le vocabulaire définissant un profil en fonction du document traité en sélectionnant les termes de ce dernier les plus étroitement liés aux termes du profil. Cette capacité ouvre ainsi la voie à une plus grande finesse du filtrage en permettant la sélection d’extraits de documents ayant un lien plus ténu avec les profils mais davantage susceptibles d’apporter des informations nouvelles et donc intéressantes. La production du résumé résulte de l’appariement entre les segments délimités lors de l’analyse des documents et les thèmes du profil.

Abstract : In this article, we present an information extraction method that selects from a set of documents their most significant excerpts in relation to an user profile. This method relies on both structured profiles and a topical analysis of documents. The topical analysis is notably used for expanding a profile in relation to a particular document by selecting the terms of the document that are closely linked to those of the profile. This expansion is a way for selecting in a more reliable way excerpts that are not strongly linked to profiles but that may bring new and interessant information about their topics.

Mots clés : Extraction d’information, profil utilisateur, résumé multi-document

Keywords : Information extraction, user profile, multi-document summarization