talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Évaluation de méthodes et d’outils pour la lemmatisation automatique du français médiéval

Cristina Holgado, Alexei Lavrentiev, Mathieu Constant

Résumé : Pour les langues historiques non stabilisées comme le français médiéval, la lemmatisation automatique présente toujours des défis, car cette langue connaît une forte variation graphique. Dans cet article, nous dressons un état des lieux de la lemmatisation automatique pour cette langue en comparant les performances de quatre lemmatiseurs existants sur un même jeu de données. L’objectif est d’évaluer où se situent les nouvelles techniques de l’apprentissage automatique par rapport aux techniques plus traditionnelles s’appuyant sur des systèmes de règles et lexiques, en particulier pour la prédiction des mots inconnus.

Mots clés : lemmatisation, étiquetage morphosyntaxique, linguistique historique, français médiéval.