talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction d’informations à partir de corpus dégradés

Fabrice Even, Chantal Enguehard

Résumé : Nous présentons une méthode automatique d’extraction d’information à partir d’un corpus mono-domaine de mauvaise qualité, sur lequel il est impossible d’appliquer les méthodes classiques de traitement de la langue naturelle. Cette approche se fonde sur la construction d’une ontologie semi-formelle (modélisant les informations contenues dans le corpus et les relations entre elles). Notre méthode se déroule en trois phases : 1) la normalisation du corpus, 2) la construction de l’ontologie, et 3) sa formalisation sous la forme d’une grammaire. L’extraction d’information à proprement parler exploite un étiquetage utilisant les règles définies par la grammaire. Nous illustrons notre démarche d’une application sur un corpus bancaire.

Abstract : We present an information extraction automatic method from poor quality specific-domain corpus (with which it is impossible to apply classical natural language methods). This approach is based on building a semi-formal ontology in order to modelise information present in the corpus and their relation. Our method happens in three stage : 1) corpus normalisation, 2) ontology building and 3) model formalisation in grammar. The information extraction itself is made by a tagging process using grammar rules. We illustrate our approach by an application working on a bank corpus.

Mots clés : Extraction d’information, modélisation, construction d’ontologie, corpus dégradés

Keywords : Information extraction, modelling, building ontology, poor quality corpus