talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction d’information de sous-catégorisation à partir des tables du LADL

Claire Gardent, Bruno Guillaume, Guy Perrier, Ingrid Falk

Résumé : Les tables du LADL (Laboratoire d’Automatique Documentaire et Linguistique) contiennent des données électroniques extensives sur les propriétés morphosyntaxiques et syntaxiques des foncteurs syntaxiques du français (verbes, noms, adjectifs). Ces données, dont on sait qu’elles sont nécessaires pour le bon fonctionnement des systèmes de traitement automatique des langues, ne sont cependant que peu utilisées par les systèmes actuels. Dans cet article, nous identifions les raisons de cette lacune et nous proposons une méthode de conversion des tables vers un format mieux approprié au traitement automatique des langues.

Abstract : Maurice Gross’ grammar lexicon contains rich and exhaustive information about the morphosyntactic and syntactic properties of French syntactic functors (verbs, adjectives, nouns). Yet its use within natural language processing systems is hampered both by its non standard encoding and by a structure that is partly implicit and partly underspecified. In this paper, we present a method for translating this information into a format more amenable for use by NLP systems, we discuss the results obtained so far, we compare our approach with related work and we identify the possible further uses that can be made of the reformatted information.

Mots clés : lexique-grammaire, M. Gross, sous-catégorisation

Keywords : Grammar Lexicon, M. Gross, subcategorisation