talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Tour d'Horizon du French Question Bank : Construire un Corpus Arboré de Questions pour le Français

Djamé Seddah, Marie Candito

Résumé : Nous présentons le French QuestionBank, un corpus arboré composé de 2600 questions annotées en dépendances et en constituants. Les deux tiers étant alignés avec le QuestionBank de l’anglais (Judge et al., 2006), libre de droits, ce corpus saura prouver son utilité pour construire des systèmes d’analyse robuste. Nous discutons aussi des coûts de développement de tels corpus.

Mots clés : corpus arborés, analyse syntaxique statistique, analyse hors domaine.