talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction sémantique sur un corpus d'annonces légales

Daniel Kayser

Résumé : Nous décrivons un procédé visant à extraire de textes simples une structure sémantique facile à interroger. Le corpus est constitué d'objets sociaux déclarés dans les avis de constitution de sociétés. La méthode consiste à accompagner la convergence des textes du corpus vers un "axiome" au moyen de règles ad-hoc, par des actions de construction de structures de traits. Le fractionnement en étapes successives garantit l'efficacité du traitement, mais empêche la prise en compte des influences réciproques du texte et du co-texte. Le procédé n'est donc applicable que dans des limites assez étroites. L'article présente et discute les résultats obtenus.