π-YALLI : un nouveau corpus pour des modèles de langue nahuatl / Yankuik nawatlahtolkorpus pampa tlahtolmachiotl
Juan-José Guzman-Landa, Juan-Manuel Torres-Moreno, Martha-Lorena Avendaño-Garrido, Miguel Figueroa-Saavedra, Ligia Quintana-Torres, Graham Ranger, Carlos-Emiliano González-Gallardo, Elvys Linhares Pontes, Patricia Velazquez-Morales, Luis Gil Moreno Jiménez
Résumé : Le nahuatl ou nawatl, dispose de peu de ressources informatiques, bien qu'il soit une langue vivante parlée par environ deux millions de personnes. Nous avons construit π-YALLI, corpus qui permet de mener des recherches et de développer des modèles de langue (ML) dynamiques et statiques. Nous avons mesuré la perplexité de π-YALLI, évalué la performance des ML les plus récents comparés aux résultats d'un corpus de similitude sémantique annoté manuellement. Les résultats montrent la difficulté de travailler sur cette π-langue, tout en ouvrant des perspectives intéressantes pour l'étude d'autres tâches de Traitement Automatique des Langues (TAL) portant sur le nahuatl.
Mots clés : Nahuatl