@inproceedings{Bouziane-Mdhaffar-Esteve:CORIA-TALN-2026:2026,
    author = "Bouziane, Maryem and Mdhaffar, Salima and Est\`eve, Yannick",
    title = "Apprentissage de plusieurs repr\'esentations d{\textquoteright}attributs au niveau de l{\textquoteright}\'enonc\'e avec un encodeur de parole unifi\'e",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 33\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles.  Volume 1 : articles scientifiques originaux",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "134-144",
    note = "",
    abstract = "Les mod\`eles de fondation pour la parole entra{\^\i}n\'es par apprentissage auto-supervis\'e produisent des repr\'esentations g\'en\'eriques de la parole, capables de soutenir un large \'eventail de t\^aches de traitement de la parole. Lorsqu{\textquoteright}ils sont ensuite adapt\'es par apprentissage supervis\'e, ces mod\`eles peuvent atteindre de fortes performances sur des t\^aches aval sp\'ecifiques. Des approches r\'ecentes de post-entra{\^\i}nement, telles que SAMU-XSLR et SONAR, alignent les repr\'esentations de la parole sur des repr\'esentations s\'emantiques au niveau de l{\textquoteright}\'enonc\'e, permettant des applications multimodales (parole{\textendash}texte) et multilingues efficaces. Alors que les mod\`eles de fondation pour la parole apprennent typiquement des embeddings contextuels au niveau de la trame acoustique, ces m\'ethodes apprennent des repr\'esentations au niveau de l{\textquoteright}\'enonc\'e.
Dans ce travail, nous \'etendons ce paradigme \`a des attributs arbitraires au niveau de l{\textquoteright}\'enonc\'e et proposons un cadre unifi\'e de post-entra{\^\i}nement permettant \`a un unique mod\`ele de fondation pour la parole de g\'en\'erer plusieurs types de repr\'esentations au niveau de l{\textquoteright}\'enonc\'e. Nous d\'emontrons l{\textquoteright}efficacit\'e de cette approche en apprenant conjointement des repr\'esentations s\'emantiques et des repr\'esentations de locuteur, puis en les \'evaluant sur des t\^aches de recherche multilingue \`a partir de la parole et de reconnaissance du locuteur.",
    keywords = "apprentissage multit\^ache, encodeur de parole, repr\'esentation s\'emantique, repr\'esentation de locuteur.",
    url = "65.pdf"
}
