talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Exploiter les similitudes linguistiques pour la transcription vocale à faibles ressources

Valentina Fedchenko, Eric Jordan

Résumé : Cette étude examine comment les modèles acoustiques auto-supervisés à grande échelle (tels que XLSR et MMS) représentent la similarité linguistique et si cette information peut être exploitée pour optimiser la reconnaissance automatique de la parole (ASR) pour les langues à faibles ressources et présentant une forte variation dialectale. Bien que ces modèles excellent dans l’apprentissage par transfert interlinguistique, leurs représentations internes des variations dialectales fines restent encore peu comprises. Nous nous concentrons sur le yiddish, une langue présentant un continuum dialectal complexe, afin de vérifier si une mesure interne de similarité acoustique du modèle, appelée Acoustic Token Distribution Similarity (ATDS), permet de prédire les performances de l’ASR. Notre méthodologie consiste à affiner les modèles sur des données issues de différents dialectes du yiddish et à mesurer l’ATDS entre le yiddish et des langues apparentées. Les résultats confirment que l’ATDS constitue un prédicteur significatif : une similarité acoustique plus élevée dans l’espace latent du modèle est corrélée à des taux d’erreur de caractères (CER) plus faibles après affinage. Cette relation est particulièrement forte dans les couches moyennes à supérieures du modèle MMS et pour les données intra-domaine. L’ATDS capture une similarité acoustique dépendante du modèle, qui ne correspond pas toujours aux relations linguistiques généalogiques, mais qui demeure un indicateur pratique du potentiel d’apprentissage par transfert. Nous concluons que l’ATDS constitue un outil précieux pour sélectionner les langues sources lors du développement de systèmes ASR plus efficaces et sensibles aux variations dialectales dans des contextes de documentation linguistique. Néanmoins, ses valeurs absolues doivent être interprétées avec prudence et mises en perspective avec les connaissances linguistiques existantes.

Mots clés : apprentissage par transfert, similarité linguistique, diversité dialectale, contexte à faibles ressources, reconnaissance automatique de la parole, dialectes yiddish