talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Multiple Lexicon Generation based on Phonological Feature Trees

Moritz Neugebauer, Stephen Wilson

Résumé : De manière générale, les linguistes informaticiens utilisent les structures de données arborescentes pour la documentation et l’analyse des données morphologiques et syntactiques. Dans cet article nous appliquons de telles structures sur des données phonologiques et nous démontrons comment de telles représentations peuvent avoir des applications utiles et pratiques en lexicographie informatique. À cet effet, nous décrivons trois modules intégrés: Le premier module définit un ensemble de caractéristiques multilangages dans une structure arborescente exprimée en XML; le deuxième module parcours cet arbre et établis une généralisation sur des données contenues dans cet arborescence, optimise les données phonologiques et mets en valeur les implications des caractéristiques. Le troisième module utilise l’information contenue dans l’arborescence comme une base de connaissance pour la génération de syllabes lexiques à caractéristiques multiples.

Abstract : Tree-based data structures are commonly used by computational linguists for the documentation and analysis of morphological and syntactic data. In this paper we apply such structures to phonological data and demonstrate how such representations can have practical and beneficial applications in computational lexicography. To this end, we describe three integrated modules: the first defines a multilingual feature set within a tree-based structure using XML; the second module traverses this tree and generalises over the data contained within it, optimising the phonological data and highlighting feature implications. The third uses the information contained within the tree representation as a knowledge base for the generation of multiple feature-based syllable lexica.

Mots clés : Lexicographie, Représentations phonologiques, XML

Keywords : Lexicography, Phonological representations, XML