talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Outil Interactif et Évolutif pour l’Extraction d’Information dans des Documents Techniques

Thiziri Belkacem, Charles Teissèdre

Résumé : L’accès à l’information dans la documentation technique est une application particulière et complexe du traitement du langage naturel et de la recherche d’information. La difficulté tient aux contraintes propres des langages métier spécialisés et semi-contrôlés. Dans ce document, nous proposons un outil d’accès à l’information dans différents types de documents. Notre solution exploite conjointement la structure organisationnelle des documents et leur contenu informationnel, pour extraire des informations métier dans des différents corpus. Nous proposons un système basé sur des interactions expert-machine dans un cycle d’amélioration continu des modèles d’extraction. Notre approche exploite des modèles d’apprentissage à faible supervision ne nécessitant pas d’expertise en ingénierie des langues. Notre système intègre l’utilisateur dans le processus de qualification de l’information et permet de guider son apprentissage, afin de rendre ses modèles plus performants au fil du temps.

Mots clés : Extraction d’Information, Document Technique, Modèle Évolutif..