talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Typologie automatique des langues à partir de treebanks

Philippe Blache, Grégroie de Montcheuil, Stéphane Rauzy

Résumé : La typologie des langues repose sur l'étude de la réalisation de propriétés ou phénomènes linguistiques dans plusieurs langues ou familles de langues. Nous abordons dans cet article la question de la typologie syntaxique et proposons une méthode permettant d'extraire automatiquement ces propriétés à partir de treebanks, puis de les analyser en vue de dresser une telle typologie. Nous décrivons cette méthode ainsi que les outils développés pour la mettre en œuvre. Celle-ci a été appliquée à l'analyse de 10 langues décrites dans le Universal Dependencies Treebank. Nous validons ces résultats en montrant comment une technique de classification permet, sur la base des informations extraites, de reconstituer des familles de langues.

Abstract : Linguistic typology studies different linguistic properties or phenomena in order to compare several languages or language families. We address in this paper the question of syntactic typology and propose a method for extracting automatically from treebanks syntactic properties, and bring them into a typology perspective. We present here the method and the different tools for inferring such information. The approach has been applied to 10 languages of the Universal Dependencies Treebank. We validate the results in showing how automatic classification corrélâtes with language families.

Mots clés : Typologie, syntaxe, treebank, inférence de grammaire, Grammaire de Propriétés

Keywords : Typology, syntax, grammar inference, Property Grammars