Modèle SENSE : une solution open source pour les tâches multilingues et multimodales basées sur la sémantique
Salima Mdhaffar, Haroun Elleuch, Chaimae Chellaf, Maryem Bouziane, Ha Nguyen, Yannick Estève
Résumé : Cet article présente SENSE (Shared Embedding for N-lingual Speech and tExt), une solution open source inspirée du cadre SAMU-XLSR et conceptuellement proche des modèles SONAR de Meta AI. Ces approches reposent sur un cadre teacher–student visant à aligner un encodeur de parole auto-supervisé avec les représentations continues indépendantes de la langue produites par un encodeur de texte, au niveau de l’énoncé. Nous décrivons comment la méthode originale SAMU-XLSR a été améliorée en sélectionnant un modèle texte enseignant plus performant ainsi qu’un meilleur encodeur de parole initial. Le code source permettant d’entraîner et d’utiliser les modèles SENSE a été intégré dans l'outil SpeechBrain, et le premier modèle SENSE que nous avons entraîné a été rendu public. Nous présentons des résultats expérimentaux sur des tâches sémantiques multilingues et multimodales, dans lesquelles notre modèle SENSE atteint des performances très compétitives. Enfin, cette étude apporte de nouveaux éclairages sur la manière dont la sémantique est capturée dans ce type d’encodeurs de parole alignés sémantiquement.
Mots clés : Encodeur de parole multilingue, représentation sémantique, recherche d’information multimodale, traduction de la parole