talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Outiller l'occitan : nouvelles ressources et lemmatisation

Aleksandra Miletić

Résumé : Ce travail présente des contributions récentes à l'effort de doter l'occitan de ressources et outils pour le TAL. Plusieurs ressources existantes ont été modifiées ou adaptées, notamment un tokéniseur à base de règles, un lexique morphosyntaxique et un corpus arboré. Ces ressources ont été utilisées pour entraîner et évaluer des modèles neuronaux pour la lemmatisation. Dans le cadre de ces expériences, un nouveau corpus plus large (2 millions de tokens) provenant du Wikipédia a été annoté en parties du discours, lemmatisé et diffusé.

Mots clés : langues peu dotées, occitan, lemmatisation