talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

CALOR-Frame : un corpus de textes encyclopédiques annoté en cadres sémantiques

Frédéric Béchet, Géraldine Damnati, Johannes Heinecke, Gabriel Marzinotto, Alexis Nasr

Résumé : Le corpus CALOR-Frame est un corpus annoté en cadres sémantiques, constitué de textes encyclopédiques dans le domaine de l’Histoire et produit conjointement par l’Université d’Aix-Marseille et Orange Labs. La constitution de cette ressource s’inscrit dans le cadre général de la recherche d’information avec pour objectif de favoriser l’accès aux contenus de la connaissance. La structuration en cadres sémantiques permet des recherches avancées dépassant le cadre de la simple recherche par mots-clés. Dans cet article est décrit le processus d’annotation en cadres sémantiques mis en place, qui utilise un outil de validation d’annotations automatiques à des fins d’optimisation. Le choix des textes et des cadres sémantiques considérés est également motivé.

Mots clés : Cadre sémantique, corpus, apprentissage actif, étiquetage de séquence.