talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Exploration et utilisation d’informations distantes dans les modèles de langage statistiques

Armelle Brun, David Langlois, Kamel Smaïli

Résumé : Dans le cadre de la modélisation statistique du langage, nous montrons qu’il est possible d’utiliser un modèle n-grammes avec un historique qui n’est pas nécessairement celui avec lequel il a été appris. Par exemple, un adverbe présent dans l’historique peut ne pas avoir d’importance pour la prédiction, et devrait donc être ignoré en décalant l’historique utilisé pour la prédiction. Notre étude porte sur les modèles n-grammes classiques et les modèles n-grammes distants et est appliquée au cas des bigrammes. Nous présentons quatre cas d’utilisation pour deux modèles bigrammes : distants et non distants. Nous montrons que la combinaison linéaire dépendante de l’historique de ces quatre cas permet d’améliorer de 14 % la perplexité du modèle bigrammes classique. Par ailleurs, nous nous intéressons à quelques cas de combinaison qui permettent de mettre en valeur les historiques pour lesquels les modèles que nous proposons sont performants.

Abstract : In the framework of statistical language modeling, we show that it is possible to use n-gram models with a history different to the one used during training. Our study deals with classical and distant n-gram models and is restricted to bigram models. We present four use cases for two bigram models : distant and non distant. By using the linear combination, we show an improvement of 14 % in terms of perplexity compared to the classic bigram model. Moreover, a study has been performed in order to emphasize the histories for which our models are efficient.

Mots clés : modélisation statistique du langage, modèles distants, combinaison linéaire

Keywords : statistical language modeling, distant models, linear combination