Systèmes d'écriture et qualité des données : l'affinage de modèles de translittération dans un contexte de faibles ressources
Emmett Strickland, Ilaine Wang, Damien Nouvel, Bénédicte Diot-Parvaz Ahmad
Résumé : Cet article présente une expérience visant à construire des modèles de romanisation affinés pour onze langues parmi lesquelles se trouvent des langues dites peu dotées. Nous démontrons qu'un modèle de romanisation efficace peut être créé en affinant un modèle de base entraîné sur un corpus important d'une ou plusieurs autres langues. Le système d'écriture semblerait jouer un rôle dans l'efficacité de certains modèles affinés. Nous présentons également des méthodes pour évaluer la qualité des données d'entraînement et d'évaluation, et comparons notre modèle arabe le plus performant à un modèle de référence.
Mots clés : Translittération automatique, langues peu dotées, affinage.