talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Apprentissage discriminant pour les Grammaires à Substitution d'Arbres

Antoine Rozenknop, Jean-Cédric Chappelier, Martin Rajman

Résumé : Les grammaires stochastiques standards utilisent des modèles probabilistes de nature générative, fondés sur des probabilités de récriture conditionnées par le symbole récrit. Les expériences montrent qu'elles tendent ainsi par nature à pénaliser les dérivations les plus longues pour une mˆeme entrée, ce qui n'est pas forcément un comportement souhaitable, ni en analyse syntaxique, ni en reconnaissance de la parole. Dans cet article, nous proposons une approche probabiliste non-générative du modèle STSG (grammaire stochastique à substitution d'arbres), selon laquelle les probabilités sont conditionnées par les feuilles des arbres syntaxiques plutˆot que par leur racine, et qui par nature fait appel à un apprentissage discriminant. Plusieurs expériences sur ce modèle sont présentées.

Abstract : Standard stochastic grammars use generative probabilistic models, focussing on rewriting probabilities conditioned by the rewritten symbol. Such grammars therefore tend to give penalty to longer derivations of the same input, which could be a drawback when they are used for analysis (e.g. speech recognition). In this contribution, we propose a novel non-generative probabilistic model of STSGs (Stochastic Tree Substitution Grammars), where probabilities are conditioned by the leaves of the syntactic trees (i.e. the input symbols) rather than by the root. Several experiments of this new model are presented.

Mots clés : STSG, Gibbs-Markov, Maximum d'Entropie, Vraisemblance Conditionnelle

Keywords : STSG, Gibbs-Markov, Maximum Entropy, Conditionnal likelihood