talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

La FREEBANK : vers une base libre de corpus annotés

Susanne Salmon-Alt, Eckhard Bick, Laurent Romary, Jean-Marie Pierrel

Résumé : Les corpus français librement accessibles annotés à d’autres niveaux linguistiques que morpho-syntaxique sont insuffisants à la fois quantitativement et qualitativement. Partant de ce constat, la FREEBANK -- construite sur la base d’outils d’analyse automatique dont la sortie est révisée manuellement -- se veut une base de corpus du français annotés à plusieurs niveaux (structurel, morphologique, syntaxique, coréférentiel) et à différents degrés de finesse linguistique qui soit libre d’accès, codée selon des schémas normalisés, intégrant des ressources existantes et ouverte à l’enrichissement progressif.

Abstract : The few available French resources for evaluating linguistic models or algorithms on other linguistic levels than morpho-syntax are either insufficient from quantitative as well as qualitative point of view or not freely accessible. Based on this fact, the FREEBANK project intends to create French corpora constructed using manually revised output from a hybrid Constraint Grammar parser and annotated on several linguistic levels (structure, morphosyntax, syntax, coreference), with the objective to make them available on-line for research purposes. Therefore, we will focus on using standard annotation schemes, integration of existing resources and maintenance allowing for continuous enrichment of the annotations.

Mots clés : ressources libres, annotation multiniveau, corpus arboré, codage référentiel, normalisation

Keywords : free resources, multi-level annotation, treebank, reference annotation, normalisation