Algorithmes à base d'échantillonage pour l'entraînement de modèles de langue neuronaux
Matthieu Labeau, Alexandre Allauzen
Résumé : L’estimation contrastive bruitée (NCE) et l’échantillonage par importance (IS) sont des procédures d’entraînement basées sur l’échantillonage, que l’on utilise habituellement à la place de l’estimation du maximum de vraisemblance (MLE) pour éviter le calcul du softmax lorsque l’on entraîne des modèles de langue neuronaux. Dans cet article, nous cherchons à résumer le fonctionnement de ces algorithmes, et leur utilisation dans la littérature du TAL. Nous les comparons expérimentalement, et présentons des manières de faciliter l’entraînement du NCE.
Mots clés : Modèle de langue, Estimation contrastive bruitée, Negative Sampling.