@inproceedings{Remy:CORIA-TALN-2026:2026,
    author = "Remy, Fran\c{c}ois",
    title = "Une famille de mod\`eles cliniques multilingues de type ColBERT diagnosticables gr\^ace \`a un espace latent s\'emantique",
    booktitle = "Actes de CORIA-TALN 2026. Actes de l'atelier TAL@Sant\'e",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "85-89",
    note = "",
    abstract = "Dans cet article, nous introduisons le concept de mod\`ele ColBERT diagnosticable, un mod\`ele de langage dont la compr\'ehension est analysable directement \`a l'\'echelle du token. En effet, bien que les mod\`eles ColBERT classiques permettent l'inspection de scores d'interaction token--token, cela ne suffit pas pour diagnostiquer les erreurs en contexte clinique : pour cela, il faut aussi un espace latent de r\'ef\'erence, s\'emantiquement structur\'e, afin de rendre visibles les confusions de concept, de composition locale et de qualification contextuelle.
Arm\'e de cette capacit\'e d'introspection dans la compr\'ehension cognitive d'un mod\`ele, il est possible d'entra{\^\i}ner des mod\`eles plus solides en it\'erant sur les donn\'ees de mani\`ere r\'eactive.
Cette perspective est appuy\'ee par deux r\'esultats r\'ecents: ClinicalEncoder26AM a obtenu le meilleur rappel multilingue en extraction d'entit\'es cliniques \`a MultiClinNER avec une t\^ete BIO l\'eg\`ere, tandis que ClinicalAligner26AM s'est class\'e premier sur le transfert d'entit\'es multilingues MultiClinCorpus avec un F1 sup\'erieur \`a 0,95 dans presque tous les r\'eglages.",
    keywords = "diagnosable, colbert, clinical, biomedical, multilingual, latent space",
    url = "7.pdf"
}