talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

L'annotation syntaxique de corpus oraux constitue-t-elle un problème spécifique ?

Christophe Benzitoun

Résumé : Dans cet article, nous présentons une typologie des phénomènes qui posent problème pour l'annotation syntaxique de corpus oraux. Nous montrons également que ces phénomènes, même s'ils y sont d'une fréquence moindre, sont loin d'être absents à l'écrit (ils peuvent même être tout à fait significatifs dans certains corpus : e-mails, chats, SMS…), et que leur prise en compte peut améliorer l'annotation et fournir un cadre intégré pour l'oral et l'écrit.

Abstract : In this paper, we present a typology of the phenomena that create problems for the syntactic tagging of spoken corpora. We also show that these phenomena, although less frequent, are far from being absent in written language (they can even be quite significant in some corpora: e-mails, chats, SMS…). Taken them into account can improve the annotation and provide a unified analysis framework for both spoken and written data.

Mots clés : Annotation syntaxique, corpus oraux, NFCE, annotation de référence

Keywords : Syntactic annotation, spoken corpora, reference annotation