Une famille de modèles cliniques multilingues de type ColBERT diagnosticables grâce à un espace latent sémantique
François Remy
Résumé : Dans cet article, nous introduisons le concept de modèle ColBERT diagnosticable, un modèle de langage dont la compréhension est analysable directement à l'échelle du token. En effet, bien que les modèles ColBERT classiques permettent l'inspection de scores d'interaction token--token, cela ne suffit pas pour diagnostiquer les erreurs en contexte clinique : pour cela, il faut aussi un espace latent de référence, sémantiquement structuré, afin de rendre visibles les confusions de concept, de composition locale et de qualification contextuelle. Armé de cette capacité d'introspection dans la compréhension cognitive d'un modèle, il est possible d'entraîner des modèles plus solides en itérant sur les données de manière réactive. Cette perspective est appuyée par deux résultats récents: ClinicalEncoder26AM a obtenu le meilleur rappel multilingue en extraction d'entités cliniques à MultiClinNER avec une tête BIO légère, tandis que ClinicalAligner26AM s'est classé premier sur le transfert d'entités multilingues MultiClinCorpus avec un F1 supérieur à 0,95 dans presque tous les réglages.
Mots clés : diagnosable, colbert, clinical, biomedical, multilingual, latent space