talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Entre syntaxe et sémantique : Normalisation de la sortie de l’analyse syntaxique en vue de l’amélioration de l’extraction d’information à partir de textes

Caroline Hagège, Claude Roux

Résumé : Cet article présente la normalisation de la sortie d’un analyseur robuste de l’anglais. Nous montrons quels sont les enrichissements que nous avons effectués afin de pouvoir obtenir à la sortie de notre analyseur des relations syntaxiques plus générales que celles que nous offrent habituellement les analyseurs robustes existants. Pour cela nous utilisons non seulement des propriétés syntaxiques, mais nous faisons appel aussi à de l’information de morphologie dérivationnelle. Cette tâche de normalisation est menée à bien grâce à notre analyseur XIP qui intègre tous les traitements allant du texte brut tout venant au texte normalisé. Nous pensons que cette normalisation nous permettra de mener avec plus de succès des tâches d’extraction d’information ou de détection de similarité entre documents.

Abstract : This article presents our work on the normalization of the output of a robust dependency parser for English. We show how we have enriched our grammar to yield syntactic relations that are more general than those usually obtained with other available robust parsers. In order to achieve this result, we use syntactic properties, together with derivational morphology information. This normalization task is carried out with XIP which handles all the process that transform our input text into its normalized output. We consider that this normalization will improve the result of information extraction and similarity detection process between documents.

Mots clés : analyse syntaxique robuste, normalisation en vue de l’extraction d’information

Keywords : robust parsing, normalization for information extraction