talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Evaluation des Modèles de Langage n-gram et n/m-multigram

Pierre Alain, Olivier Boeffard

Résumé : Cet article présente une évaluation de modèles statistiques du langage menée sur la langue Française. Nous avons cherché à comparer la performance de modèles de langage exotiques par rapport aux modèles plus classiques de n-gramme à horizon fixe. Les expériences réalisées montrent que des modèles de n-gramme à horizon variable peuvent faire baisser de plus de 10% en moyenne la perplexité d’un modèle de n-gramme à horizon fixe. Les modèles de n/m-multigramme demandent une adaptation pour pouvoir être concurrentiels.

Abstract : This paper presents an evaluation of statistical language models carried out on the French language. We compared the performance of some exotic models to the one of the more traditional ngram model. The experiments show that the variable n-gram models can drop more than 10% of the average perplexity for a fixed n-gram model. n/m-multigram models require an adaptation to be able to compete.

Mots clés : Modèles de Langage statistiques, n-gramme, multigramme, évaluation

Keywords : Statistical Language Models, n-grams, phrase multigrams