talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Annoter les documents XML avec un outil d’analyse syntaxique

Claude Roux

Résumé : Cet article présente l’intégration au sein d’un analyseur syntaxique (Xerox Incremental Parser) de règles spécifiques qui permettent de lier l’analyse grammaticale à la sémantique des balises XML spécifiques à un document donné. Ces règles sont basées sur la norme XPath qui offre une très grande finesse de description et permet de guider très précisément l’application de l’analyseur sur une famille de documents partageant une même DTD. Le résultat est alors être intégré directement comme annotation dans le document traité.

Abstract : This article presents the embedding within a syntactic parser (Xerox Incremental Parser or XIP) of specific rules which are used to bind the grammatical analysis to the semantic of the XML mark up tags specific to a given document. The goal of these rules is to guide the application of a natural language processing tool through the use of XPath instructions to describe documents that share the same DTD. The result can then be embedded within the input document in order to annotate that document.

Mots clés : XML, analyse syntaxique, traitement automatique des langues, traitement de documents, Xpath, XIP

Keywords : XML, parsing, natural language processing, document processing, XPath, XIP