Inférence en langue naturelle appliquée au recrutement de patients pour les essais cliniques : le point de vue du patient
Mathilde Aguiar, Pierre Zweigenbaum, Nona Naderi
Résumé : Recruter des patients pour les essais cliniques est long et complexe. Habituellement, le processus de recrutement est initié par un professionnel de santé qui propose à un patient de participer à l'essai clinique. Promouvoir les essais directement aux patients via des plateformes en ligne pourrait aider à en atteindre un plus grand nombre. Dans cette étude, nous nous intéressons au cas où le patient est l'initiateur de la démarche et veut savoir s'il est éligible à un essai clinique, tout cela en utilisant son propre langage patient. Pour déterminer si l'utilisation d'un tel langage permet tout de même au modèle de langue de déterminer l'égilibilité du patient pour l'essai clinique, nous construisons la tâche Natural Language Inference for Patient Recrutement (NLI4PR). Pour cela nous adaptons le jeu de données TREC 2022 Clinical Trial Track en réécrivant manuellement les profils médicaux en langage patient. Nous extrayons également les essais cliniques où les patients étaient labellisés « éligible » ou « exclu ». Nous soumettons des amorces à plusieurs grands modèles de langue, et obtenons un score F1 compris entre 56,6 et 71,8 avec le langage patient, contre 64,7 à 73,1 pour du langage médical. Nous observons que l'utilisation du langage patient ne mène qu'à une dégradation de performance relativement petite pour notre meilleur modèle. Cela suggère qu'avoir le patient en tant que point de départ du recrutement pourrait être réalisable. Nos scripts ainsi que nos jeux de données sont disponibles sur Github et HuggingFace(Aguiar et al. , 2025).
Mots clés : Inférence en Langue Naturelle, Essais cliniques, Recrutement de patients, Grands Modèles de Langue.