talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Conceptualisation d’un système d’informations lexicales, une interface paramétrable pour le T.A.L

Djamé Seddah, Evelyne Jacquey

Résumé : La nécessité de ressources lexicales normalisées et publiques est avérée dans le domaine du TAL. Cet article vise à montrer comment, sur la base d’une partie du lexique MULTEXT disponible sur le serveur ABU, il serait possible de construire une architecture permettant tout à la fois l’accès aux ressources avec des attentes différentes (lemmatiseur, parseur, extraction d’informations, prédiction, etc.) et la mise à jour par un groupe restreint de ces ressources. Cette mise à jour consistant en l’intégration et la modification, automatique ou manuelle, de données existantes. Pour ce faire, nous cherchons à prendre en compte à la fois les besoins et les données accessibles. Ce modèle est évalué conceptuellement dans un premier temps en fonction des systèmes utilisés dans notre équipe : un analyseur TAG, un constructeur de grammaires TAGs, un extracteur d’information.

Abstract : Lexical ressources which would be normalized and freely accessible is a major issue in the NLP research area. This article aims to show how to built an information system which allow (1) a freely access for distinct NLP systems (tagging, parsing, information extraction, etc.) and (2) an easy update of data by a restricted team of researchers, this update being manual or computed. Starting with a a subset of the MULTEXT lexicon which is accessible from the server ABU, we aim to take into account the various needs and the variability of accessible lexical data. Our modelisation is evaluated with three existing systems of our team : EGAL (parsing), a builder of Tag grammars and VULCAIN (information extraction).

Mots clés : Bases de données, ressources lexicales

Keywords : Data Bases, Lexical Ressources