Modèles de langue neuronaux: une comparaison de plusieurs stratégies d’apprentissage
Quoc-Khanh Do, Alexandre Allauzen, François Yvon
Résumé : Alors que l’importance des modèles neuronaux dans le domaine du traitement automatique des langues ne cesse de croître, les difficultés de leur apprentissage continue de freiner leur diffusion au sein de la communauté. Cet article étudie plusieurs stratégies, dont deux sont originales, pour estimer des modèles de langue neuronaux, en se focalisant sur l’ajustement du pas d’apprentissage. Les résultats expérimentaux montrent, d’une part, l’importance que revêt la conception de cette stratégie. D’autre part, le choix d’une stratégie appropriée permet d’apprendre efficacement des modèles de langue donnant lieu à des résultats à l’état de l’art en traduction automatique, avec un temps de calcul réduit et une faible influence des hyper-paramètres.
Abstract : If neural networks play an increasingly important role in natural language processing, training issues still hinder their dissemination in the community. This paper studies different learning strategies for neural language models (including two new strategies), focusing on the adaptation of the learning rate. Experimental results show the impact of the design of such strategy. Moreover, provided the choice of an appropriate training regime, it is possible to efficiently learn language models that achieves state of the art results in machine translation with a lower training time and a reduced impact of hyper-parameters.
Mots clés : Réseaux de neurones, modèles de langue n-gramme, traduction automatique statistique
Keywords : Neural networks, n-gram language models, statistical machine translation