talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Annotation référentielle du Corpus Arboré de Paris 7 en entités nommées

Benoît Sagot, Marion Richard, Rosa Stern

Résumé : Le Corpus Arboré de Paris 7 (ou French TreeBank) est le corpus de référence pour le français aux niveaux morphosyntaxique et syntaxique. Toutefois, il ne contient pas d’annotations explicites en entités nommées. Ces dernières sont pourtant parmi les informations les plus utiles pour de nombreuses tâches en traitement automatique des langues et de nombreuses applications. De plus, aucun corpus du français annoté en entités nommées et de taille importante ne contient d’annotation référentielle, qui complète les informations de typage et d’empan sur chaque mention par l’indication de l’entité à laquelle elle réfère. Nous avons annoté manuellement avec ce type d’informations, après pré-annotation automatique, le Corpus Arboré de Paris 7. Nous décrivons les grandes lignes du guide d’annotation sous-jacent et nous donnons quelques informations quantitatives sur les annotations obtenues.

Abstract : The French TreeBank developed at the University Paris 7 is the main source of morphosyntactic and syntactic annotations for French. However, it does not include explicit information related to named entities, which are among the most useful information for several natural language processing tasks and applications. Moreover, no large-scale French corpus with named entity annotations contain referential information, which complement the type and the span of each mention with an indication of the entity it refers to. We have manually annotated the French TreeBank with such information, after an automatic pre-annotation step. We sketch the underlying annotation guidelines and we provide a few figures about the resulting annotations.

Mots clés : Résolution d’entités nommées, Corpus annoté, Corpus arboré de Paris 7

Keywords : Named entity resolution, Annotated corpus, French TreeBank