Reconnaissance automatique de manuscrits arabes scientifiques médiévaux : Création d'un jeu de données et évaluation de grands modèles de langues
Ismail El Jamiy, Guillaume Loizelet, Farah Benamara, Nabil Hathout
Résumé : La numérisation du patrimoine scientifique arabe constitue un défi important pour l'analyse de ces documents, en raison de la complexité spatiale de l'écriture (cursivité, diacritiques, ligatures). Malgré les progrès récents, ces manuscrits demeurent souvent indéchiffrables pour les modèles d'intelligence artificielle actuels. Dans cet article, nous présentons une évaluation de méthodes de l'état de l'art sur un nouveau corpus édité et annoté manuellement : al-Qānūn al-Masʿūdī d'Al-Bīrūnī, un traité majeur d'astronomie mathématique, comparable à l’Almageste de Ptoléméeaux et écrit aux alentours de 1030. Nous présentons la méthodologie de construction du corpus, puis détaillons l'approche mise en place pour la numérisation de ce manuscrit. Cette dernière prend la forme d'un pipeline unifié à base de grands modèles de langue dont l'entrée est une image brute et la sortie un texte numérisé. La comparaison des résultats obtenus par différents modèles allant de modèles généralistes multilingues à arabocentrés, en passant par des modèles OCR spécialisés met en lumière les limites des systèmes actuels face aux spécificités des textes scientifiques anciens et permet d'identifier des lignes directrices pour développer des systèmes de reconnaissance automatique de ces manuscrits.
Mots clés : Reconnaissance de texte manuscrit, Documents historiques arabes, Grands modèles de langue