talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Génération contrôlée de cas cliniques en français à partir de données médicales structurées

Hugo Boulanger, Nicolas Hiebel, Olivier Ferret, Karën Fort, Aurélie Névéol

Résumé : La génération de texte ouvre des perspectives pour pallier l'absence de corpus librement partageables dans des domaines contraints par la confidentialité, comme le domaine médical. Dans cette étude, nous comparons les performances de modèles encodeurs-décodeurs et décodeurs seuls pour la génération conditionnée de cas cliniques en français. Nous affinons plusieurs modèles pré-entraînés pour chaque architecture sur des cas cliniques en français conditionnés par les informations démographiques des patient·es (sexe et âge) et des éléments cliniques.Nous observons que les modèles encodeur-décodeurs sont plus facilement contrôlables que les modèles décodeurs seuls, mais plus coûteux à entraîner.

Mots clés : Génération contrôlée,Textes cliniques,Textes synthétiques,Français