talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Rapido, interopérabilité et fouille de textes : vers un alignement des publications scientifiques en archéologie

Lucas Anki, Pascal Cuxac, Agnieszka Halczuk, Justine Revol

Résumé : Le projet RAPIDO vise à enrichir les publications scientifiques en reliant automatiquement les toponymes archéologiques à des référentiels d'autorité grâce à des outils de reconnaissance d'entités nommées. Il s'appuie sur l'annotation manuelle et l'apprentissage automatique (Flair, BERT) pour extraire et aligner ces toponymes. L'article présente cette méthode, les résultats obtenus et les perspectives d'amélioration.

Mots clés : entités nommées, référentiels, OCR, fouille de textes, apprentissage automatique