talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une méthode d'extraction d'information fondée sur les graphes pour le remplissage de formulaires

Ludovic Jean-Louis, Romaric Besançon, Olivier Ferret

Résumé : Dans les systèmes d’extraction d’information sur des événements, une tâche importante est le remplissage automatique de formulaires regroupant les informations sur un événement donné à partir d’un texte non structuré. Ce remplissage de formulaire peut s’avérer difficile lorsque l’information est dispersée dans tout le texte et mélangée à des éléments d’information liés à un autre événement similaire. Nous proposons dans cet article une approche en deux étapes pour ce problème : d’abord une segmentation du texte en événements pour sélectionner les phrases relatives au même événement ; puis une méthode de sélection dans les phrases sélectionnées des entités liées à l’événement. Une évaluation de cette approche sur un corpus annoté de dépêches dans le domaine des événements sismiques montre un F-score de 72% pour la tâche de remplissage de formulaires.

Abstract : In event-based Information Extraction systems, a major task is the automated filling from unstructured texts of a template gathering information related to a particular event. Such template filling may be a hard task when the information is scattered throughout the text and mixed with similar pieces of information relative to a different event. We propose in this paper a two-step approach for template filling : first, an event-based segmentation is performed to select the parts of the text related to the target event ; then, a graph-based method is applied to choose the most relevant entities in these parts for characterizing the event. Using an evaluation of this model based on an annotated corpus for earthquake events, we achieve a 72% F-measure for the template-filling task.

Mots clés : Extraction d’information, segmentation de texte, remplissage de formulaires

Keywords : Information Extraction, Text Segmentation, Template Filling