talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

TCOF-POS : un corpus libre de français parlé annoté en morphosyntaxe

Christophe Benzitoun, Karën Fort, Benoît Sagot

Résumé : Nous présentons dans cet article un travail portant sur la création d’un corpus de français parlé spontané annoté en morphosyntaxe. Nous détaillons la méthodologie suivie afin d’assurer le contrôle de la qualité de la ressource finale. Ce corpus est d’ores et déjà librement diffusé pour la recherche et peut servir aussi bien de corpus d’apprentissage pour des logiciels que de base pour des descriptions linguistiques. Nous présentons également les résultats obtenus par deux étiqueteurs morphosyntaxiques entrainés sur ce corpus.

Abstract : This article details the creation of TCOF-POS, the first freely available corpus of spontaneous spoken French. We present here the methodology that was followed in order to obtain the best possible quality in the final resource. This corpus already is freely available and can be used as a training/validation corpus for NLP tools, as well as a study corpus for linguistic research. We also present the results obtained by two POS-taggers trained on the corpus.

Mots clés : Etiquetage morpho-syntaxique, français parlé, ressources langagières

Keywords : Etiquetage morpho-syntaxique, français parlé, ressources langagières