talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Apprentissage de plusieurs représentations d’attributs au niveau de l’énoncé avec un encodeur de parole unifié

Maryem Bouziane, Salima Mdhaffar, Yannick Estève

Résumé : Les modèles de fondation pour la parole entraînés par apprentissage auto-supervisé produisent des représentations génériques de la parole, capables de soutenir un large éventail de tâches de traitement de la parole. Lorsqu’ils sont ensuite adaptés par apprentissage supervisé, ces modèles peuvent atteindre de fortes performances sur des tâches aval spécifiques. Des approches récentes de post-entraînement, telles que SAMU-XSLR et SONAR, alignent les représentations de la parole sur des représentations sémantiques au niveau de l’énoncé, permettant des applications multimodales (parole–texte) et multilingues efficaces. Alors que les modèles de fondation pour la parole apprennent typiquement des embeddings contextuels au niveau de la trame acoustique, ces méthodes apprennent des représentations au niveau de l’énoncé. Dans ce travail, nous étendons ce paradigme à des attributs arbitraires au niveau de l’énoncé et proposons un cadre unifié de post-entraînement permettant à un unique modèle de fondation pour la parole de générer plusieurs types de représentations au niveau de l’énoncé. Nous démontrons l’efficacité de cette approche en apprenant conjointement des représentations sémantiques et des représentations de locuteur, puis en les évaluant sur des tâches de recherche multilingue à partir de la parole et de reconnaissance du locuteur.

Mots clés : apprentissage multitâche, encodeur de parole, représentation sémantique, représentation de locuteur.