@inproceedings{Rodriguez-Huet-Favre-Rouvier:CORIA-TALN-2026:2026,
    author = "Rodriguez, Ricardo and Huet, St\'ephane and Favre, Benoit and Rouvier, Mickael",
    title = "Pr\'eservation du contenu m\'edical par des syst\`emes de synth\`ese vocale ouverts",
    booktitle = "Actes de CORIA-TALN 2026. Actes de l'atelier TAL@Sant\'e",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "68-80",
    note = "",
    abstract = "Le secteur des soins cliniques conna{\^\i}t un flux croissant de donn\'ees \`a traiter, ce qui justifie l'introduction de nouvelles technologies mieux adapt\'ees au domaine de la sant\'e. Les Grands Mod\`eles de Langue avec interfaces vocales apportent des b\'en\'efices potentiels, mais n\'ecessitent de grandes quantit\'es de donn\'ees audio pour l'entra{\^\i}nement, extr\^emement difficiles \`a collecter vue leur haute sensibilit\'e, introduisant des enjeux \'ethiques et r\'eglementaires pour leur exploitation. Dans cet article nous \'etudions la capacit\'e de quatre mod\`eles TTS ouverts \`a synth\`etiser des textes m\'edicaux, et nous \'evaluons la pr\'eservation du contenu via des m\'ethodes automatiques: taux d'erreur de mots (WER), taux d'erreur sur des concepts m\'edicaux (M-WER) et performance dans des t\^aches de TAL du mod\`ele BioLinkBERT-large \'evalu\'e sur la transcription des donn\'ees synth\'etiques. Les textes utilis\'es proviennent des corpus BLURB, et l{\textquoteright}ensemble des donn\'ees g\'en\'er\'ees sera rendu publiquement disponible sous licence ouverte.",
    keywords = "tts, synth\`ese de la parole, m\'edical, sant\'e, kokoro, fish-speech, style-tts2, zipvoice, blurb",
    url = "3.pdf"
}
