Préservation du contenu médical par des systèmes de synthèse vocale ouverts

Ricardo Rodriguez, Stéphane Huet, Benoit Favre, Mickael Rouvier

Résumé : Le secteur des soins cliniques connaît un flux croissant de données à traiter, ce qui justifie l'introduction de nouvelles technologies mieux adaptées au domaine de la santé. Les Grands Modèles de Langue avec interfaces vocales apportent des bénéfices potentiels, mais nécessitent de grandes quantités de données audio pour l'entraînement, extrêmement difficiles à collecter vue leur haute sensibilité, introduisant des enjeux éthiques et réglementaires pour leur exploitation. Dans cet article nous étudions la capacité de quatre modèles TTS ouverts à synthètiser des textes médicaux, et nous évaluons la préservation du contenu via des méthodes automatiques: taux d'erreur de mots (WER), taux d'erreur sur des concepts médicaux (M-WER) et performance dans des tâches de TAL du modèle BioLinkBERT-large évalué sur la transcription des données synthétiques. Les textes utilisés proviennent des corpus BLURB, et l’ensemble des données générées sera rendu publiquement disponible sous licence ouverte.

Mots clés : tts, synthèse de la parole, médical, santé, kokoro, fish-speech, style-tts2, zipvoice, blurb

Téléchargement :
[article]
[bibtex]

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Préservation du contenu médical par des systèmes de synthèse vocale ouverts

Ricardo Rodriguez, Stéphane Huet, Benoit Favre, Mickael Rouvier