talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Modéliser la facilité d’écoute en FLE : vaut-il mieux lire la transcription ou écouter le signal vocal ?

Minami Ozawa, Rodrigo Wilkens, Kaori Sugiyama, Thomas François

Résumé : Le principal objectif de cette étude est de proposer un modèle capable de prédire automatiquement le niveau de facilité d’écoute de documents audios en français. Les données d’entrainement sont constituées d’enregistrements audios accompagnés de leurs transcriptions et sont issues de manuels de FLE dont le niveau est évalué sur l’échelle du Cadre européen commun de référence (CECR). Nous comparons trois approches différentes : machines à vecteurs de support (SVM) combinant des variables de lisibilité et de fluidité, wav2vec et CamemBERT. Pour identifier le meilleur modèle, nous évaluons l’impact des caractéristiques linguistiques et prosodiques ainsi que du style de parole(dialogue ou monologue) sur les performances. Nos expériences montrent que les variables de fluidité améliorent la précision du modèle et que cette précision est différente par style de parole. Enfin, les performances de tous les modèles varient selon les niveaux du CECR.

Mots clés : facilité d’écoute,lisibilité,FLE,wav2vec