talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Exploiting structural meeting-specific features for topic segmentation

Maria Georgescul, Alexander Clarck, Susan Armstrong

Résumé : Dans cet article, nous traitons de la segmentation automatique des textes en épisodes thématiques non superposés et ayant une structure linéaire. Notre étude porte sur l’utilisation des traits lexicaux, acoustiques et syntaxiques et sur l’influence de ces traits sur la performance d’un système automatique de segmentation thématique. Nous appliquons notre approche, basée sur des machines à vecteurs support, à des transcriptions des dialogues multilocuteurs.

Abstract : In this article we address the task of automatic text structuring into linear and non-overlapping thematic episodes. Our investigation reports on the use of various lexical, acoustic and syntactic features, and makes a comparison of how these features influence performance of automatic topic segmentation. Using datasets containing multi-party meeting transcriptions, we base our experiments on a proven state-of-the-art approach using support vector classification.

Mots clés : segmentation automatique en épisodes thématiques, machines à vecteurs support, dialogues multi-locuteurs

Keywords : automatic topic segmentation, support vector machines, multi-party dialogues