talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Décodage conceptuel et apprentissage automatique : application au corpus de dialogue Homme-Machine MEDIA

Christophe Servan, Frédéric Béchet

Résumé : Cette étude présente les travaux du LIA effectués sur le corpus de dialogue homme-machine MEDIA et visant à proposer des méthodes d’analyse robuste permettant d’extraire d’un message audio une séquence de concepts élémentaires. Le modèle de décodage conceptuel présenté est basé sur une approche stochastique qui intègre directement le processus de compréhension au processus de Reconnaissance Automatique de la Parole (RAP). Cette approche permet de garder l’espace probabiliste des phrases produit en sortie du module de RAP et de le projeter vers un espace probabiliste de séquences de concepts. Les expériences menées sur le corpus MEDIA montrent que les performances atteintes par notre modèle sont au niveau des meilleurs systèmes ayant participé à l’évaluation sur des transcriptions manuelles de dialogues. En détaillant les performances du système en fonction de la taille du corpus d’apprentissage on peut mesurer le nombre minimal ainsi que le nombre optimal de dialogues nécessaires à l’apprentissage des modèles. Enfin nous montrons comment des connaissances a priori peuvent être intégrées dans nos modèles afin d’augmenter significativement leur couverture en diminuant, à performance égale, l’effort de constitution et d’annotation du corpus d’apprentissage.

Abstract : Within the framework of the French evaluation program MEDIA on spoken dialogue systems, this paper presents the methods developed at the LIA lab for the robust extraction of basic conceptual constituents or concepts from an audio message. The conceptual decoding model proposed follows a stochastic paradigm and is directly integrated into the Automatic Speech Recognition (ASR) process. This approach allows us to both keep the probabilistic search space on sequences of words produced by the ASR module and project it to a probabilistic search space of sequences of concepts. The experiments carried on on the MEDIA corpus show that the performance reached by our approach is state of the art on manual transcriptions of dialogues. By partitioning the training corpus according to different sizes, one can measure the impact of the training corpus on the decoding performance, therefore estimate both the minimal and optimal number of dialogue examples required. Finally we detail how a priori knowledge can be integrated in our models in order to increase their coverage and therefore lowering, for the same level of performance, the amount of training corpus required.

Mots clés : dialogue homme-machine, reconnaissance automatique de la parole, apprentissage automatique à base de corpus

Keywords : spoken dialogue, automatic speech recognition, corpus-based methods