talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

CDGFr, un corpus en dépendances non-projectives pour le français

Denis Béchet, Ophélie Lacroix

Résumé : Dans le cadre de l'analyse en dépendances du français, le phénomène de la non-projectivité est peu pris en compte, en majeure partie car les donneés sur lesquelles sont entraînés les analyseurs représentent peu ou pas ces cas particuliers. Nous présentons, dans cet article, un nouveau corpus en dépendances pour le français, librement disponible, contenant un nombre substantiel de dépendances non-projectives. Ce corpus permettra d'étudier et de mieux prendre en compte les cas de non-projectivité dans l'analyse du français.

Abstract : The non-projective cases, as a part of the dependency parsing of French, are often disregarded, mainly because the tree- banks on which parsers are trained contain little or no non-projective dependencies. In this paper, we present a new freely available dependency treebank for French that includes a substantial number of non-projective dependencies. This corpus can be used to study and process non-projectivity more effectively within the context of French dependency parsing.

Mots clés : Corpus français, annotation en dépendances, dépendances non-projectives

Keywords : Treebank for French, dependency annotation, non-projective dependencies