talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Normaliser le moyen français : du graphématique au semi-diplomatique

Sonia Solfrini, Mylène Dejouy, Aurélia Marques Oliveira, Pierre-Olivier Beaulnes

Résumé : La pré-éditorialisation des documents anciens, comprise comme une automatisation partielle de la préparation éditoriale des données textuelles, est récemment devenue l'un des nouveaux fronts de la recherche en philologie computationnelle. Dans un premier temps, nous définissons cette tâche de TAL (Traitement Automatique du Langage) pour le moyen français et la plaçons dans une chaîne de traitement numérique qui permet la création de données machine-actionable, depuis les sorties de l'OCR (Optical Character Recognition). Ensuite, nous présentons et rendons disponible un ensemble de données d'environ 40 000 lignes, tirées d'un corpus d'imprimés du XVIesiècle, ainsi que les règles de normalisation semi-diplomatique qui ont guidé la préparation des données. Enfin, nous proposons un premier modèle de normalisation automatique, afin de confirmer la faisabilité de la tâche.

Mots clés : Humanités Numériques, Normalisation automatique, Français du XVIesiècle, Moyen français, Règles de normalisation, Pré-éditorialisation des textes.