@inproceedings{Fedchenko-Jordan:CORIA-TALN-2026:2026,
    author = "Fedchenko, Valentina and Jordan, Eric",
    title = "Exploiter les similitudes linguistiques pour la transcription vocale \`a faibles ressources",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 33\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles.  Volume 2 : articles d\'ej\`a publi\'es",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "20-21",
    note = "",
    abstract = "Cette \'etude examine comment les mod\`eles acoustiques auto-supervis\'es \`a grande \'echelle (tels que XLSR et MMS) repr\'esentent la similarit\'e linguistique et si cette information peut \^etre exploit\'ee pour optimiser la reconnaissance automatique de la parole (ASR) pour les langues \`a faibles ressources et pr\'esentant une forte variation dialectale. Bien que ces mod\`eles excellent dans l{\textquoteright}apprentissage par transfert interlinguistique, leurs repr\'esentations internes des variations dialectales fines restent encore peu comprises. Nous nous concentrons sur le yiddish, une langue pr\'esentant un continuum dialectal complexe, afin de v\'erifier si une mesure interne de similarit\'e acoustique du mod\`ele, appel\'ee Acoustic Token Distribution Similarity (ATDS), permet de pr\'edire les performances de l{\textquoteright}ASR.
Notre m\'ethodologie consiste \`a affiner les mod\`eles sur des donn\'ees issues de diff\'erents dialectes du yiddish et \`a mesurer l{\textquoteright}ATDS entre le yiddish et des langues apparent\'ees. Les r\'esultats confirment que l{\textquoteright}ATDS constitue un pr\'edicteur significatif : une similarit\'e acoustique plus \'elev\'ee dans l{\textquoteright}espace latent du mod\`ele est corr\'el\'ee \`a des taux d{\textquoteright}erreur de caract\`eres (CER) plus faibles apr\`es affinage. Cette relation est particuli\`erement forte dans les couches moyennes \`a sup\'erieures du mod\`ele MMS et pour les donn\'ees intra-domaine. L{\textquoteright}ATDS capture une similarit\'e acoustique d\'ependante du mod\`ele, qui ne correspond pas toujours aux relations linguistiques g\'en\'ealogiques, mais qui demeure un indicateur pratique du potentiel d{\textquoteright}apprentissage par transfert.
Nous concluons que l{\textquoteright}ATDS constitue un outil pr\'ecieux pour s\'electionner les langues sources lors du d\'eveloppement de syst\`emes ASR plus efficaces et sensibles aux variations dialectales dans des contextes de documentation linguistique. N\'eanmoins, ses valeurs absolues doivent \^etre interpr\'et\'ees avec prudence et mises en perspective avec les connaissances linguistiques existantes.",
    keywords = "apprentissage par transfert, similarit\'e linguistique, diversit\'e dialectale, contexte \`a faibles ressources, reconnaissance automatique de la parole, dialectes yiddish",
    url = "101.pdf"
}
