@inproceedings{Rubino-Coram-Mekkey-Bouillon:CORIA-TALN-2026:2026,
    author = "Rubino, Raphael and Coram-Mekkey, Sandra and Bouillon, Pierrette",
    title = "Normalisation du moyen fran\c{c}ais : comparaison de mod\`eles pr\'e-entra{\^\i}n\'es",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 33\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles.  Volume 1 : articles scientifiques originaux",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "386-404",
    note = "",
    abstract = "Pour les humanit\'es num\'eriques, la normalisation de documents historiques est une t\^ache essentielle qui consiste \`a r\'eduire les variations orthographiques et \`a corriger les \'eventuelles erreurs provenant de la transcription automatique du contenu original. De nombreux travaux l'envisagent comme une t\^ache de traduction automatique (TA). Cependant, le manque de donn\'ees parall\`eles pertinentes pour le domaine et pour la p\'eriode historique concern\'ee limite les performances des syst\`emes de TA d\'evelopp\'es et en fait une t\^ache comparable \`a la TA des langues peu dot\'ees. Cette \'etude vise \`a \'evaluer les performances de mod\`eles pr\'e-entra{\^\i}n\'es afin de d\'eterminer s'ils peuvent \^etre b\'en\'efiques pour la t\^ache de normalisation de textes en moyen fran\c{c}ais, pour laquelle les textes source et cible sont des variantes du fran\c{c}ais contemporain. Pour garantir que nos donn\'ees ne soient pas connues des grands mod\`eles utilis\'es, nous exploitons un nouveau corpus parall\`ele, extrait de documents administratifs r\'edig\'es au milieu du 16\`eme si\`ecle en moyen fran\c{c}ais et n'ayant jamais \'et\'e publi\'es sous leurs formes transcrite ou normalis\'ee. L'\'etude compare les mod\`eles pr\'e-entra{\^\i}n\'es populaires en terme d'architecture, de type encodeur{\textendash}d\'ecodeur et d\'ecodeur seul, ainsi qu'un mod\`ele Transformer entra{\^\i}n\'e uniquement pour la t\^ache de normalisation sur nos donn\'ees. Les r\'esultats montrent que l'architecture encodeur{\textendash}d\'ecodeur est la plus performante parmi les mod\`eles \'evalu\'es et soulignent
l'utilit\'e du pr\'e-entra{\^\i}nement.",
    keywords = "Humanit\'es num\'eriques, normalisation de textes historiques, moyen fran\c{c}ais, grands mod\`eles de langue",
    url = "109.pdf"
}
