talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Toolbox : une chaîne de traitement de corpus pour les humanités numériques

Johanna Mayra Cordova, Yoann Dupont, Ljudmila Petkovic, James Gawley, Motasem Alrahabi, Glenn Roe

Résumé : Le projet Toolbox propose une chaîne de traitement pour la manipulation et le traitement de corpus textuels incluant la numérisation (OCR/HTR), la conversion au format TEI, la fouille de texte (reconnaissance d’entités nommées) et la visualisation de données. Les fonctionnalités sont accessibles via une interface en ligne qui sert de surcouche graphique à des scripts développés par nos soins ou utilisant des outils externes. Elles permettent d’automatiser les tâches élémentaires de traitement de corpus pour les chercheurs en humanités numériques. Cet outil est ouvert aux contributions externes.

Mots clés : Humanités numériques, TEI, OCR, reconnaissance des entités nommées.