talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Nouvelle approche de la sélection de vocabulaire pour la détection de thème

Armelle Brun, Kamel Smaïli, Jean-Paul Haton

Résumé : En reconnaissance de la parole, un des moyens d’améliorer les performances des systèmes est de passer par l’adaptation des modèles de langage. Une étape cruciale de ce processus consiste à détecter le thème du document traité et à adapter ensuite le modèle de langage. Dans cet article, nous proposons une nouvelle approche de création des vocabulaires utilisés pour la détection de thème. Cette dernière est fondée sur le développement de vocabulaires spécifiques et caractéristiques des différents thèmes. Nous montrons que cette approche permet non seulement d’améliorer les performances des méthodes, mais exploite également des vocabulaires de taille réduite. De plus, elle permet d’améliorer de façon très significative les performances de méthodes de détection lorsqu’elles sont combinées.

Abstract : One way to improve performance of Automatic Speech Recognition (ASR) systems consists in adapting language models. We are particularly interested in adapting language models to the topic related in data. Before adapting the language model, this topic has to be detected. In this work, we present a new way to create vocabularies used to detect the topic in a given text. This new method results in the improvement of topic detection performance of the methods studied, it also results in the reduction of the vocabulary size required. Finally, we show a large improvement of the performance when combining topic identification methods, when new vocabularies are used.

Mots clés : Détection de thème, création de vocabulaire, combinaison

Keywords : Topic detection, vocabulary creation, combination