talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Normalisation du moyen français : comparaison de modèles pré-entraînés

Raphael Rubino, Sandra Coram-Mekkey, Pierrette Bouillon

Résumé : Pour les humanités numériques, la normalisation de documents historiques est une tâche essentielle qui consiste à réduire les variations orthographiques et à corriger les éventuelles erreurs provenant de la transcription automatique du contenu original. De nombreux travaux l'envisagent comme une tâche de traduction automatique (TA). Cependant, le manque de données parallèles pertinentes pour le domaine et pour la période historique concernée limite les performances des systèmes de TA développés et en fait une tâche comparable à la TA des langues peu dotées. Cette étude vise à évaluer les performances de modèles pré-entraînés afin de déterminer s'ils peuvent être bénéfiques pour la tâche de normalisation de textes en moyen français, pour laquelle les textes source et cible sont des variantes du français contemporain. Pour garantir que nos données ne soient pas connues des grands modèles utilisés, nous exploitons un nouveau corpus parallèle, extrait de documents administratifs rédigés au milieu du 16ème siècle en moyen français et n'ayant jamais été publiés sous leurs formes transcrite ou normalisée. L'étude compare les modèles pré-entraînés populaires en terme d'architecture, de type encodeur–décodeur et décodeur seul, ainsi qu'un modèle Transformer entraîné uniquement pour la tâche de normalisation sur nos données. Les résultats montrent que l'architecture encodeur–décodeur est la plus performante parmi les modèles évalués et soulignent l'utilité du pré-entraînement.

Mots clés : Humanités numériques, normalisation de textes historiques, moyen français, grands modèles de langue