Reconnaissance automatique de manuscrits arabes scientifiques médiévaux : Création d'un jeu de données et évaluation de grands modèles de langues

Ismail El Jamiy, Guillaume Loizelet, Farah Benamara, Nabil Hathout

Résumé : La numérisation du patrimoine scientifique arabe constitue un défi important pour l'analyse de ces documents, en raison de la complexité spatiale de l'écriture (cursivité, diacritiques, ligatures). Malgré les progrès récents, ces manuscrits demeurent souvent indéchiffrables pour les modèles d'intelligence artificielle actuels. Dans cet article, nous présentons une évaluation de méthodes de l'état de l'art sur un nouveau corpus édité et annoté manuellement : al-Qānūn al-Masʿūdī d'Al-Bīrūnī, un traité majeur d'astronomie mathématique, comparable à l’Almageste de Ptoléméeaux et écrit aux alentours de 1030. Nous présentons la méthodologie de construction du corpus, puis détaillons l'approche mise en place pour la numérisation de ce manuscrit. Cette dernière prend la forme d'un pipeline unifié à base de grands modèles de langue dont l'entrée est une image brute et la sortie un texte numérisé. La comparaison des résultats obtenus par différents modèles allant de modèles généralistes multilingues à arabocentrés, en passant par des modèles OCR spécialisés met en lumière les limites des systèmes actuels face aux spécificités des textes scientifiques anciens et permet d'identifier des lignes directrices pour développer des systèmes de reconnaissance automatique de ces manuscrits.

Mots clés : Reconnaissance de texte manuscrit, Documents historiques arabes, Grands modèles de langue

Téléchargement :
[article]
[bibtex]

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Reconnaissance automatique de manuscrits arabes scientifiques médiévaux : Création d'un jeu de données et évaluation de grands modèles de langues

Ismail El Jamiy, Guillaume Loizelet, Farah Benamara, Nabil Hathout