Étude de la variabilité de la prononciation dans des plongements de grands modèles audio. Effets du locuteur et de la L1 en français L2
Maxime Fily, Guillaume Wisniewski, Martine Adda-Decker
Résumé : La variation en parole française native et non-native est traitée avec une méthode low-resource basée sur une comparaison des représentations acoustiques wav2vec2/XLSR-53 brutes, utilisant des transcriptions phonétiques fines effectuées par annotateurs experts. Les méthodes de z-scoring et de normalisation temporelle sont explorées pour évaluer les informations phonétiquement analysables. En adaptant le Dynamic Time Warping aux plongements, nous comparons des enregistrements phonologiquement similaires de locuteurs natifs et non-natifs et l’effet sur les plongements et les MFCCs de la variabilité inter- et intra-locuteur / de parole native vs. non-native. Ce travail sur les représentations montre que les représentations sont locuteur-dépendantes. Afin de mieux aborder la variabilité de la prononciation L2, une normalisation temporelle permet de séparer les facteurs de fluidité et de précision dans la prononciation L2. Cela montre que wav2vec2 contient des informations phonétiques fines telles que la prononciation non-native. Nous montrons par ailleurs que les plongements encodent temporellement l’information phonétique.
Mots clés : Similarités cosinus, parole, acquisition L2, recherche-par-exemple (QbE-STD), méthode non supervisée