talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

V1Ω a=able ou Normaliser des lexiques syntaxiques est délectable

Susanne Salmon-Alt

Résumé : Partant des lexiques TAL syntaxiques existants, cet article propose une représentation lexicale unifiée et normalisée, préalable et nécessaire à toute exploitation des lexiques syntaxiques hors de leur propre contexte de conception. Ce travail s’inscrit dans un cadre de modélisation privilégié − le Lexical Markup Framework − qui a été conçu dès le départ comme un modèle lexicographique intégrant les différents niveaux de description. Ce modèle permet d’articuler des descriptions extensionnelles et intensionnelles et fait référence à un jeu de descripteurs normalisés, garantissant la rigueur de la description des faits linguistiques et assurant, à terme, la compatibilité avec des formats de données utilisés pour l’annotation de corpus.

Abstract : Based on existing lexical resources for NLP, in particular inflected form and subcategorization lexica, this paper proposes a unified and normalized representation, required for any further use of the data out of their original context. As a starting point for our model, we chose the Lexical Markup Framework, for three reasons. Firstly, it covers various layers of linguistic description including morphology, syntax and semantics. Secondly, it allows for combining extensional (i.e. lists of forms or constructions) and intensional (i.e. reference to paradigms) lexical descriptions. Thirdly, it makes use of externally defined data categories, ensuring linguistic soundness and, ultimately, compatibility with standardized corpus annotation formats.

Mots clés : lexique, TAL, syntaxe, lexique-grammaire, sous-catégorisation, standardisation

Keywords : lexicon, NLP, syntax, lexicon-grammar, normalization, subcategorization