talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

L’information biographique : modélisation, extraction et organisation en base de connaissances

Laurent Kevers

Résumé : L’extraction et la valorisation de données biographiques contenues dans les dépêches de presse est un processus complexe. Pour l’appréhender correctement, une définition complète, précise et fonctionnelle de cette information est nécessaire. Or, la difficulté que l’on rencontre lors de l’analyse préalable de la tâche d’extraction réside dans l’absence d’une telle définition. Nous proposons ici des conventions dans le but d’en développer une. Le principal concept utilisé pour son expression est la structuration de l’information sous forme de triplets {sujet, relation, objet}. Le début de définition ainsi construit est exploité lors de l’étape d’extraction d’informations par transducteurs à états finis. Il permet également de suggérer une solution d’implémentation pour l’organisation des données extraites en base de connaissances.

Abstract : Extraction and valorization of biographical information from news wires is a complex task. In order to handle it correctly, it is necessary to have a complete, accurate and functional definition. The preliminary analysis of the extraction task reveals the lack of such a definition. This article proposes some conventions to develop it. Information modelling as triples {subject, relation, object} is the main concept used at this level. This incomplete definition can be used during the information extraction step. It also allows to suggest some implementation solutions for data organisation as a knowledge base.

Mots clés : information biographique, modélisation, extraction d’information, transducteur à états finis, entité nommée, relation, base de connaissances

Keywords : biographical information, modelling, information extraction, finite state transducers, named entities, relation, knowledge base