talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Vers une ressource prédicative pour l’extraction d’information

Aurélien Bossard

Résumé : Cet article présente une méthode pour construire, à partir d’une ressource lexicale prédicative existante, une ressource enrichie pouvant servir à une tâche d’extraction. Nous montrons les points forts et les lacunes de deux ressources existantes pour le Français : les Tables du LADL et Volem. Après avoir montré pourquoi nous avons sélectionné Volem, nous listons les données nécessaires à la tâche d’extraction d’information. Nous présentons le processus d’enrichissement de la ressource initiale et une évaluation, à travers une tâche d’extraction d’information concernant des textes de rachats d’entreprise.

Abstract : In this article, we present a method aiming at building a resource for an information extraction task, from an already existing French predicative lexical resource. We point out the weaknesses and strengthnesses of two predicative resources we worked with : Les tables du LADL and Volem. We present why we select Volem as the most interesting resource for the task. Thereafter, we make a list of the needs an information extraction task implies, and how we include missing information in the resource we selected. We evaluate the resource completed by those missing informations, using it in an information extraction task.

Mots clés : ressource prédicative, extraction d’information, patrons lexico-syntaxiques

Keywords : predicative resource, information extraction, lexico-syntactic patterns