talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une mesure de pertinence pour le tri de l’information dans un index de “fin de livre”

Touria Ait El Mekki, Adeline Nazarenko

Résumé : Nous nous intéressons à la construction des index de fin de livres. Nous avons développé le système IndDoc qui aide la construction de tels index. L’un des enjeux de la construction d’index est la sélection des informations : sélection des entrées les plus pertinentes et des renvois au texte les plus intéressants. Cette sélection est évidemment utile pour le lecteur qui doit trouver suffisamment d’information mais sans en être submergé. Elle est également précieuse pour l’auteur de l’index qui doit valider et corriger une ébauche d’index produite automatiquement par IndDoc. Nous montrons comment cette sélection de l’information est réalisée par IndDoc. Nous proposons une mesure qui permet de trier les entrées par ordre de pertinence décroissante et une méthode pour calculer les renvois au texte à associer à chaque entrée de l’index.

Abstract : This paper deals with the construction of end-of-book indexes. We have developed the IndDoc system which assists the construction of such indexes. One of the stakes of the construction of an index is the information selection: selection of the most relevant entries and the most interesting textual fragments. This selection is obviously useful for the reader who is looking for information. It is also invaluable for the index author who has to validate and correct an outline of index produced automatically by IndDoc. We show how this information selection is carried out by IndDoc. We put forward a measure which sorts the entries in decreasing relevance order and a method to calculate the references to text for each entry.

Mots clés : Segmentation thématique de texte, extraction d’information, indexation automatique

Keywords : Text segmentation, information extraction, automatic indexing