talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Annotation fonctionnelle de corpus arborés avec des Champs Aléatoires Conditionnels

Erwan Moreau, Isabelle Tellier, Antonio Balvet, Grégoire Laurence, Antoine Rozenknop, Thierry Poibeau

Résumé : L’objectif de cet article est d’évaluer dans quelle mesure les “fonctions syntaxiques” qui figurent dans une partie du corpus arboré de Paris 7 sont apprenables à partir d’exemples. La technique d’apprentissage automatique employée pour cela fait appel aux “Champs Aléatoires Conditionnels” (Conditional Random Fields ou CRF), dans une variante adaptée à l’annotation d’arbres. Les expériences menées sont décrites en détail et analysées. Moyennant un bon paramétrage, elles atteignent une F1-mesure de plus de 80%.

Abstract : The purpose of this paper is to evaluatewhether the "syntactic functions" present in a part of the Paris 7 Treebank are learnable from examples. The learning technic used is the one of "Conditional Random Fields" (CRF), in an original variant adapted to tree labelling. The conducted experiments are extensively described and analyzed. With good parameters, a F1-mesure value of over 80% is reached.

Mots clés : fonctions syntaxiques, Conditional Random Fields, corpus arborés

Keywords : syntactic functions, Conditional Random Fields, Treebanks