talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Fiabilité de la référence humaine dans la détection de thème

Armelle Brun, Kamel Smaïli

Résumé : Dans cet article, nous nous intéressons à la tâche de détection de thème dans le cadre de la reconnaissance automatique de la parole. La combinaison de plusieurs méthodes de détection montre ses limites, avec des performances de 93.1 %. Ces performances nous mènent à remetttre en cause le thème de référence des paragraphes de notre corpus. Nous avons ainsi effectué une étude sur la fiabilité de ces références, en utilisant notamment les mesures Kappa et erreur de Bayes. Nous avons ainsi pu montrer que les étiquettes thématiques des paragraphes du corpus de test comportaient vraisemblablement des erreurs, les performances de détection de thème obtenues doivent donc êtres exploitées prudemment.

Abstract : In this paper, topic detection is studied in the frame of automatic speech recognition. Topic detection methods combination reaches 93.1% correct detection. This rate makes us throw the reference labeling back into question. We have then studied the reliability of the topic labeling of our test corpus, by using the Kappa statistics and the Bayes error. With these measures, we show the topic label of some paragraphs may be wrong, then performance of topic detection may be carefully exploited.

Mots clés : Détection de thème, Etiquetage thématique, statistique Kappa, erreur de Bayes

Keywords : Topic detection, topic assignment, Kappa statistics, Bayes error