talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Normalisation de documents par analyse du contenu à l’aide d’un modèle sémantique et d’un générateur

Aurélien Max

Résumé : La problématique de la normalisation de documents est introduite et illustrée par des exemples issus de notices pharmaceutiques. Un paradigme pour l’analyse du contenu des documents est proposé. Ce paradigme se base sur la spécification formelle de la sémantique des documents et utilise une notion de similarité floue entre les prédictions textuelles d’un générateur de texte et le texte du document à analyser. Une implémentation initiale du paradigme est présentée.

Abstract : This paper discusses document normalization and gives examples based on a class of pharmaceutical documents. The discussion is based on a paradigm for document content analysis. This paradigm focusses on a formal specification of document semantics and uses a fuzzy matching measure between the textual predictions of a natural language generator and the input document. An initial implementation is presented.

Mots clés : analyse de contenu, génération, création assistée de documents, normalisation de document

Keywords : content analysis, generation, document authoring, document normalization