talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Évaluation des capacités des grands modèles de langue à comprendre les dossiers médicaux de patients : Une étude approfondie de l'extraction et la recherche de données des patients

Jesus Lovon-Melgarejo, Martin Mouysset, Jo Oleiwan, Jose G Moreno, Christine Damase-Michel, Lynda Tamine

Résumé : Les dossiers médicaux de patients (DMP) posent des défis uniques, notamment la présence de dépendances contextuelles cachées entre les caractéristiques médicales avec un niveau élevé de dimensionnalité et de disparité des données. Ce papier présente la première étude sur les capacités des grands modèles de langague à comprendre les DMP en vue d'en extraire ou rechercher des données. Nous menons des expérimentations approfondies en utilisant l'ensemble de données MIMICSQL pour explorer l'impact de la structure des prompts , des instructions, du contexte et des démonstrations de deux grands modèles de langue, Llama2 et Meditron, sur la performance des tâches d'extraction et recherche d'information. À travers des analyses quantitatives et qualitatives, nos résultats montrent que les méthodes optimales de sélection et de sérialisation des dossiers de patients peuvent améliorer la performance des tâches jusqu'à 26,79% par rapport aux approches naïves. De même, les scénarios d'apprentissage en contexte avec sélection d'exemples pertinents améliorent la performance d'extraction de données de 5,95%. Sur la base des résultats de notre étude, nous proposons des lignes directrices destinées à faciliter la conception de modèles basés sur les grands modèles de langue pour supporter la recherche d'information en santé. Les jeux de données et le code sont disponibles. Ceci est le résumé de l’article “Evaluating LLM Abilities to Understand Tabular Electronic Health Records : A Comprehensive Study of Patient Data Extraction and Retrieval” publié comme papier long à ECIR 2025 (Lovón-Melgarejo et al., 2025).

Mots clés : grands modèles de langue, dossier médical de patient (DMP), données tabulaires, recherche d'information, extraction des données