talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Vers le FDTB : French Discourse Tree Bank

Laurence Danlos, Diégo Antolinos-Basso, Chloé Braud, Charlotte Roze

Résumé : Nous présentons les premiers pas vers la création d’un corpus annoté en discours pour le français : le French Discourse TreeBank enrichissant le FTB. La méthodologie adoptée s’inspire du Penn Discourse TreeBank (PDTB) mais elle s’en distingue sur au moins deux points à caractère théorique. D’abord, notre objectif est de fournir une couverture totale d’un texte du corpus, tandis que le PDTB ne fournit qu’une couverture partielle, qui ne peut donc pas être qualifiée d’analyse discursive comme celle faite en RST ou SDRT, deux théories majeures sur le discours. Ensuite, nous avons été amenés à définir une nouvelle hiérarchie des relations de discours qui s’inspire de RST, de SDRT et du PDTB.

Abstract : We present the first steps towards creating an annotated corpus for discourse in French : the French Discourse Treebank enriching the FTB. Our methodology is based on the Penn Discourse Treebank (PDTB), but it differs in at least two points of a theoretical nature. First, our goal is to provide full coverage of a text, while the PDTB provides only partial coverage, which can not be described as discourse analysis such as the one made in RST or SDRT, two major theories on discourse. Second, we were led to define a new hierarchy of discourse relations which is based on RST, SDRT and PDTB.

Mots clés : Discours, corpus annoté manuellement, analyse discursive, PDTB, RST, SDRT

Keywords : Discourse, manually annotated corpus, discourse analysis, PDTB, RST, SDRT