talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une plateforme pour l'acquisition, la maintenance et la validation de ressources lexicales

Tristan Vanrullen, Philippe Blache, Cristel Portes, Stéphane Rauzy, Jean-François Maeyhieux

Résumé : Nous présentons une plateforme de développement de lexique offrant une base lexicale accompagnée d’un certain nombre d’outils de maintenance et d’utilisation. Cette base, qui comporte aujourd’hui 440.000 formes du Français contemporain, est destinée à être diffusée et remise à jour régulièrement. Nous exposons d’abord les outils et les techniques employées pour sa constitution et son enrichissement, notamment la technique de calcul des fréquences lexicales par catégorie morphosyntaxique. Nous décrivons ensuite différentes approches pour constituer un sous-lexique de taille réduite, dont la particularité est de couvrir plus de 90% de l’usage. Un tel lexique noyau offre en outre la possibilité d’être réellement complété manuellement avec des informations sémantiques, de valence, pragmatiques etc.

Abstract : We present a lexical development platform which comprises a lexical database of 440.000 lemmatized words of contemporary French, plus a set of maintenance tools. The lexical database is intended to be distributed and updated regularly. We present in this paper tools and techniques applied for the lexicon constitution and its enrichment, in particular the computation of lexical frequencies by morphosyntactic category. Then we describe various approaches to build an under-lexicon of reduced size, whose characteristic is to cover more than 90% of the use. Such a kernel lexicon makes it moreover possible to be really enriched by hand with semantic, valence, pragmatic information, etc.

Mots clés : dictionnaire, lexique, lexique noyau

Keywords : dictionary, lexicon, kernel lexicon