talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Presto, un corpus diachronique pour le français des XVIe-XXe siècles

Peter Blumenthal, Sascha Diwersy, Achille Falaise, Marie-Hélène Lay, Gilles Souvay, Denis Vigier

Résumé : Le corpus Presto est un corpus diachronique du français couvrant la période XVIe­XXe siècles, annoté en étiquettes morphosyntaxiques, lemmes, et dépendances syntaxiques. Une partie de ce corpus (53 textes, 6,8 millions de mots) sera diffusée sous licence libre, ainsi que les ressources ayant permis cette annotation.