Compléter des annotations humaines par des données synthétiques pour l’alignement d’entités biomédicales
Adam Remaki, Christel Gérardin, Eulàlia Farré-Maduell, Martin Krallinger, Xavier Tannier
Résumé : Nous présentons SynCABEL, une méthode visant à réduire la dépendance aux annotations manuelles nécessaires à l’apprentissage supervisé de l’alignement d’entités biomédicales, en les complétant par des exemples synthétiques. SynCABEL exploite des LLMs pour générer des exemples d’entraînement riches en contexte couvrant l’ensemble des concepts candidats d’une base de connaissances cible, offrant ainsi une supervision plus large. En utilisant des modèles génératifs récents et une inférence guidée, notre approche établit de nouveaux états de l’art sur trois jeux de données de référence : MedMentions (anglais), QUAERO (français) et SPACCC (espagnol). En faisant varier la quantité de données annotées manuellement disponibles, SynCABEL atteint des performances comparables à un entraînement entièrement supervisé tout en réduisant jusqu’à 60% le volume d’annotations humaines nécessaires. Enfin, nous introduisons un protocole d’évaluation fondé sur un LLM-as-a-judge, qui montre que SynCABEL augmente la proportion de prédictions cliniquement valides.
Mots clés : Alignement d’Entités Biomédicales,Augmentation de Données,Fouille de Textes