Cascades de transducteurs pour le chunking de la parole conversationnelle : l’utilisation de la plateforme CasSys dans le projet EPAC
Abdenour Mokrane, Nathalie Friburger, Jean-Yves Antoine
Résumé : Cet article présente l’utilisation de la plate-forme CasSys pour la segmentation de la parole conversationnelle (chunking) à l’aide de cascades de transducteurs Unitex. Le système que nous présentons est utilisé dans le cadre du projet ANR EPAC. Ce projet a pour objectif l’indexation et l’annotation automatique de grands flux de parole issus d’émissions télévisées ou radiophoniques. Cet article présente tout d’abord l’adaptation à ce type de données d’un système antérieur de chunking (Romus) qui avait été développé pour le dialogue oral homme-machine. Il décrit ensuite les principaux problèmes qui se posent à l’analyse : traitement des disfluences de l’oral spontané, mais également gestion des erreurs dues aux étapes antérieures de reconnaissance de la parole et d’étiquetage morphosyntaxique.
Abstract : This paper describes the use of the CasSys platform in order to achieve the chunking of conversational speech transcripts by means of cascades of Unitex transducers. Our system is involved in the EPAC project of the French National Agency of Research (ANR). The aim of this project is to develop robust methods for the annotation of audio/multimedia document collections which contains conversational speech sequences such as TV or radio programs. At first, this paper presents the adaptation of a former chunking system (Romus) which was developed in the restricted framework of dedicated spoken manmachine dialogue. Then, it describes the problems that are arising due to 1) spontaneous speech disfluencies and 2) errors for the previous stages of processing (automatic speech recognition and POS tagging).
Mots clés : Traitement Automatique du Langage Parlé (TALP), segmentation, chunks, parole conversationnelle, transducteurs, Unitex
Keywords : Spoken Language Processing, chunking, conversational speech, transducers, Unitex