talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Traitements pour l'analyse du français préclassique

Sascha Diwersy, Achille Falaise, Marie-Hélène Lay, Gilles Souvay

Résumé : La période « préclassique » du français s'étend sur tout le XVIe siècle et la première moitié du XVIIe siècle. Cet état de langue écrite, qui accompagne les débuts de l'imprimerie, est relativement proche du français moderne, mais se caractérise par une grande variabilité graphique. Il s'agit de l'un des moins bien dotés en termes de ressources. Nous présentons ici la construction d'un lexique, d'un corpus d'apprentissage et d'un modèle de langage pour la période préclassique, à partir de ressources du français moderne.

Abstract : The "Preclassical" French language period extends throughout the sixteenth century and the first half of the seventeenth century. This state of the written French language, which accompanies the beginnings of printing, is relatively close to the modern French, but is characterized by a large graphic variability. It is one of the most underresourced state of the French language. Here we present the construction of a lexicon, a training corpus and a language model for the Preclassic period, built from modern French resources.

Mots clés : construction de lexique morphologique, annotation et étiquetage de corpus, linguistique diachronique

Keywords : morphological lexicon construction, corpus annotation and tagging, diachronic linguistics