ELITEC : un corpus de conversations en microposts français annoté pour le liage d'entités Wikidata

Vivien Leonard, Beatrice Markhoff, Jean-Yves Antoine

Résumé : Nous présentons un corpus de microposts en français pour l'évaluation de la tâche de liage des mentions présentes dans le texte à des entités de Wikidata. Ce corpus est annoté à la fois pour la reconnaissance des mentions (Named Entity Recognition - NER) et leur liaison à des entités de Wikidata (Entity Linking - EL). Il s'agit d'une collection de 2 500 microposts, ciblés sur des termes liés à la vie en ville et regroupés en 618 conversations. Construit en suivant les conventions d'annotation de Impresso-Quaero, ce corpus a été pseudo-anonymisé afin d'être mis librement à disposition de la communauté. Nommé ELITEC (EL for mIcroposTs in FrEnCh), son objectif est de compléter les ressources spécifiques au français. ELITEC sert de base de tests pour les tâches NER et EL, et nous l'avons utilisé pour l'évaluation d'un système d'EL que nous avons développé.

Mots clés : conversations de microposts, corpus annoté, français, liage d'entité, Wikidata

Téléchargement :
[article]
[bibtex]

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

ELITEC : un corpus de conversations en microposts français annoté pour le liage d'entités Wikidata

Vivien Leonard, Beatrice Markhoff, Jean-Yves Antoine