Extraction de PCFG et analyse de phrases pré-typées
Noémie-Fleur Sandillon-Rezer
Résumé : Cet article explique la chaîne de traitement suivie pour extraire une grammaire PCFG à partir du corpus de Paris VII. Dans un premier temps cela nécessite de transformer les arbres syntaxiques du corpus en arbres de dérivation d’une grammaire AB, ce que nous effectuons en utilisant un transducteur d’arbres généralisé ; il faut ensuite extraire de ces arbres une PCFG. Le transducteur d’arbres généralisé est une variation des transducteurs d’arbres classiques et c’est l’extraction de la grammaire à partir des arbres de dérivation qui donnera l’aspect probabiliste à la grammaire. La PCFG extraite est utilisée via l’algorithme CYK pour l’analyse de phrases.
Abstract : This article explains the way we extract a PCFG from the Paris VII treebank. Firslty, we need to transform the syntactic trees of the corpus into derivation trees. The transformation is done with a generalized tree transducer, a variation of the usual top-down tree transducers, and gives as result some derivation trees for an AB grammar. Secondely, we have to extract a PCFG from the derivation trees. For this, we assume that the derivation trees are representative of the grammar. The extracted grammar is used, via the CYK algorithm, for sentence analysis.
Mots clés : Extraction de grammaire, grammaire de Lambek, PCFG, transducteur d’arbre, algorithme CYK
Keywords : Grammar Extraction, Lambek grammar, PCFG, tree transducer, CYK Algorithm