talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Le corpus PASTEL pour le traitement automatique de cours magistraux

Salima Mdhaffar, Antoine Laurent, Yannick Estève

Résumé : Le projet PASTEL étudie l’acceptabilité et l’utilisabilité des transcriptions automatiques dans le cadre d’enseignements magistraux. Il s’agit d’outiller les apprenants pour enrichir de manière synchrone et automatique les informations auxquelles ils peuvent avoir accès durant la séance. Cet enrichissement s’appuie sur des traitements automatiques du langage naturel effectués sur les transcriptions automatiques. Nous présentons dans cet article un travail portant sur l’annotation d’enregistrements de cours magistraux enregistrés dans le cadre du projet CominOpenCourseware. Ces annotations visent à effectuer des expériences de transcription automatique, segmentation thématique, appariement automatique en temps réel avec des ressources externes... Ce corpus comprend plus de neuf heures de parole annotées. Nous présentons également des expériences préliminaires réalisées pour évaluer l’adaptation automatique de notre système de reconnaissance de la parole.

Mots clés : Corpus, Transcription, Annotation, Segmentation Automatique, Enrichissement Automatique, Système de Reconnaissance de la Parole, Adaptation du Modèle de Langage.