@inproceedings{El-Jamiy-Loizelet-Benamara-Hathout:CORIA-TALN-2026:2026,
    author = "El Jamiy, Ismail and Loizelet, Guillaume and Benamara, Farah and Hathout, Nabil",
    title = "Reconnaissance automatique de manuscrits arabes scientifiques m\'edi\'evaux : Cr\'eation d'un jeu de donn\'ees et \'evaluation de grands mod\`eles de langues",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 33\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles.  Volume 1 : articles scientifiques originaux",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "483-499",
    note = "",
    abstract = "La num\'erisation du patrimoine scientifique arabe constitue un d\'efi important pour l'analyse de ces documents, en raison de la complexit\'e spatiale de l'\'ecriture (cursivit\'e, diacritiques, ligatures).  Malgr\'e les progr\`es r\'ecents, ces manuscrits demeurent souvent ind\'echiffrables pour les mod\`eles d'intelligence artificielle actuels. Dans cet article, nous pr\'esentons une \'evaluation de m\'ethodes de l'\'etat de l'art sur un nouveau corpus \'edit\'e et annot\'e manuellement : al-Q\={a}n\={u}n al-Masʿ\={u}d\={i} d'Al-B\={i}r\={u}n\={i}, un trait\'e majeur d'astronomie math\'ematique,  comparable \`a l{\textquoteright}Almageste de Ptol\'em\'eeaux et \'ecrit aux alentours de 1030. Nous pr\'esentons la m\'ethodologie de construction du corpus, puis d\'etaillons l'approche mise en place pour la num\'erisation de ce manuscrit. Cette derni\`ere prend la forme d'un pipeline unifi\'e \`a base de grands mod\`eles de langue dont l'entr\'ee est une image brute et la sortie un texte num\'eris\'e. La comparaison des r\'esultats obtenus par  diff\'erents mod\`eles allant de mod\`eles g\'en\'eralistes multilingues \`a arabocentr\'es, en passant par des mod\`eles OCR sp\'ecialis\'es met en lumi\`ere les limites des syst\`emes actuels face aux sp\'ecificit\'es des textes scientifiques anciens et permet d'identifier des lignes directrices pour d\'evelopper des syst\`emes de reconnaissance automatique de ces manuscrits.",
    keywords = "Reconnaissance de texte manuscrit, Documents historiques arabes, Grands mod\`eles de langue",
    url = "97.pdf"
}
