talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

L’accent comme structure géométrique persistante dans les représentations de la parole

Noureddine Khaous, Guillaume Wisniewski

Résumé : Les systèmes modernes de reconnaissance automatique de la parole atteignent aujourd’hui une précision proche du niveau humain pour la parole native, mais demeurent nettement moins robustes face aux accents non natifs. Dans cet article, nous examinons si cette limitation reflète une invariance linguistique incomplète dans les représentations de la parole apprises par les modèles récents. À partir du corpus Speech Accent Archive, nous réalisons une analyse géométrique couche par couche des représentations produites par wav2vec2 et whisper. Nous montrons que la parole non native reste systématiquement séparée de la parole native dans l’espace de représentation tout au long du réseau. De plus, ce déplacement géométrique prédit fortement la dégradation des performances de reconnaissance. Ces résultats suggèrent que les représentations apprises restent fortement influencées par l’accent et n’atteignent pas une invariance complète vis-à-vis des variations phonologiques.

Mots clés : reconnaissance automatique de la parole, accents non natifs, géométrie des représentations