Création d'un corpus parallèle de styles de parole en mandarin via l'auto-transcription et l'alignement forcé
Jingyi Sun, Yaru Wu, Nicolas Audibert, Martine Adda-Decker
Résumé : La technologie ASR excelle dans la transcription précise des discours lus préparés, mais elle rencontre encore des défis lorsqu’il s’agit de conversations spontanées. Cela est en partie dû au fait que ces dernières relèvent d’un registre de langage informel, avec disfluences et réductions de parole. Afin de mieux comprendre les différences de production en fonction des styles de parole, nous présentons la création d’un corpus de parole conversationnelle, dont des extraits sont ensuite lus par leurs auteurs. Le corpus comprend 36 heures de parole en chinois mandarin avec leur transcription, réparties entre conversations spontanées et lecture. Nous avons utilisé WHISPER pour la transcription automatique de la parole et le Montreal Forced Aligner pour l’alignement forcé, résultant dans un corpus de parole transcrit avec annotations multi-niveaux incluant phonèmes, caractères/syllabes et mots. De telles productions de parole parallèles (en modes spontané et lu) seront particulièrement intéressantes pour l’étude des réductions temporelles.
Mots clés : corpus parallèle,style de parole,auto-transcription,alignement forcé