talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Vers la compréhension automatique de la parole : extraction de concepts par réseaux bayésiens

Salma Jamoussi, Kamel Smaïli, Jean-Paul Haton

Résumé : La compréhension automatique de la parole peut être considérée comme un problème d’association entre deux langages différents. En entrée, la requête exprimée en langage naturel et en sortie, juste avant l’étape d’interprétation, la même requête exprimée en terme de concepts. Un concept représente un sens bien déterminé. Il est défini par un ensemble de mots partageant les mêmes propriétés sémantiques. Dans cet article, nous proposons une méthode à base de réseau bayésien pour l’extraction automatique des concepts ainsi que trois approches différentes pour la représentation vectorielle des mots. Ces représentations aident un réseau bayésien à regrouper les mots, construisant ainsi la liste adéquate des concepts à partir d’un corpus d’apprentissage. Nous conclurons cet article par la description d’une étape de post-traitement au cours de laquelle, nous étiquetons nos requêtes et nous générons les commandes SQL appropriées validant ainsi, notre approche de compréhension.

Abstract : The automatic speech understanding can be considered as association problem between two different languages. At the entry, the request expressed in natural language and at the end, just before the stage of interpretation, the same request is expressed in term of concepts. One concept represents given meaning, it is defined by the set of words sharing the same semantic properties. In this paper, we propose a new Bayesian network based method to automatically extract the underlined concepts. We also propose three different approaches for the vector representation of words. These representations help Bayesian network to build the adequate list of concepts for the considered application. We finish this paper by description of the postprocessing step during which, we label our sentences and we generate the corresponding SQL queries. This step allows us to validate our speech understanding approach.

Mots clés : Compréhension de la parole, concepts sémantiques, réseaux bayésiens, étiquetage sémantique, catégorisation automatique

Keywords : Speech understanding, semantic concepts, Bayesian networks, semantic labelling, automatic categorization