Représentation de la parole multilingue par apprentissage auto-supervisé dans un contexte subsaharien
Antoine Caubrière, Elodie Gauthier
Résumé : Les approches auto-supervisées ont conduit à des avancées majeures dans le domaine de l'apprentissage profond. Par l'exploitation d'une grande quantité de données non annotées, ces approches ont notamment permis des améliorations dans des contextes peu dotés. Toutefois, les langues africaines restent majoritairement sous-représentées dans les jeux de données de préentraînement publiquement distribués. Dans ces travaux, nous préentraînons des modèles de parole auto-supervisés multilingues à partir de langues subsahariennes exclusivement. Nous étudions la pertinence des représentations apprises sur la tâche de reconnaissance de parole, en utilisant le jeu d'évaluation FLEURS-102. Notre modèle HuBERT$_{base}$ obtient des résultats similaires face à l'approche multilingue w2v-bert de FLEURS, tout en étant plus efficient, avec 6 fois moins de paramètres et 7 fois moins de données. Nous présentont aussi un second modèle exploitant une sous-sélection équilibrée des données initiales, obtenant des performances compétitives avec près de 80 fois moins de données de préentraînement.
Mots clés : Apprentissage auto-supervisé,Langues subsaharienne,Reconnaissance de la parole multilingue,HuBERT