talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction de grammaires TAG lexicalisées avec traits à partir d’un corpus arboré pour le coréen

Jungyeul Park

Résumé : Nous présentons, ici, une implémentation d’un système qui n’extrait pas seulement une grammaire lexicalisée (LTAG), mais aussi une grammaire LTAG avec traits (FB-LTAG) à partir d’un corpus arboré. Nous montrons les expérimentations pratiques où nous extrayons les grammaires TAG à partir du Sejong Treebank pour le coréen. Avant tout, les 57 étiquettes syntaxiques et les analyses morphologiques dans le corpus SJTree nous permettent d’extraire les traits syntaxiques automatiquement. De plus, nous modifions le corpus pour l’extraction d’une grammaire lexicalisée et convertissons les grammaires lexicalisées en schémas d’arbre pour résoudre le problème de la couverture lexicale limitée des grammaires lexicalisées extraites.

Abstract : We present the implementation of a system which extracts not only lexicalized grammars but also feature-based lexicalized grammars from Sejong Treebank for Korean. We report on some practical experiments, in which we extract TAG grammars. Above all, full-scale syntactic tags and well-formed morphological analysis in Sejong Treebank allow us to extract syntactic features. In addition, we modify the Treebank to extract lexicalized grammars and convert them into tree schemata to resolve limited lexical coverage problems related to extracted lexicalized grammars.

Mots clés : grammaire d’arbre d’adjoint lexicalisée, LTAG, LTAG avec traits, FB-LTAG, structure des traits, corpus arboré, extraction automatique d’une grammaire, coréen

Keywords : lexicalized tree adjoining grammar, LTAG, feature-based LTAG, feature structure, treebank, automatic grammar extraction, Korean