talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Algorithme de décodage de treillis selon le critère du coût moyen pour la reconnaissance de la parole

Antoine Rozenknop, Marius Silaghi

Résumé : Les modèles de langage stochastiques utilisés pour la reconnaissance de la parole continue, ainsi que dans certains systèmes de traitement automatique de la langue, favorisent pour la plupart l’interprétation d’un signal par les phrases les plus courtes possibles, celles-ci étant par construction bien souvent affectées des coûts les plus bas. Cet article expose un algorithme permettant de répondre à ce problème en remplaçant le coût habituel affecté par le modèle de langage par sa moyenne sur la longueur de la phrase considérée. Cet algorithme est très général et peut être adapté aisément à de nombreux modèles de langage, y compris sur des tâches d’analyse syntaxique.

Abstract : Stochastic language models used for continous speech recognition, and also in some Automated Language Processing systems, often favor the shortest interpretation of a signal, which are affected with the lowest costs by construction. To cope with this problem, this article presents an algorithm that allows the computation of the sequence with the lowest mean cost, in a very systematical way. This algorithm can easily be adapted to several kinds of language models, and to other tasks, such as syntactic analysis.

Keywords : Continuous speech recognition, Stochastic language models, Mean score