La spécialisation de domaine est-elle toujours pertinente ? Une étude de l'adaptation de modèles de langue génératifs sur un nouveau corpus biomédical français
Aidan Mannion, Cécile Macaire, Armand Violle, Stéphane Ohayon, Xavier Tannier, Didier Schwab, Lorraine Goeuriot, François Portet
Résumé : Les grands modèles de langue ont démontré des capacités remarquables dans divers domaines, mais leur adaptation à des domaines spécialisés reste difficile. Cette étude examine le pré-apprentissage comme stratégie visant à spécialiser les modèles de langue de taille moyenne dans le domaine biomédical français grâce à un pré-apprentissage continu. Nous abordons des questions de recherche autour du pré-apprentissage continu spécialisé pour l’adaptation au domaine et la relation entre les gains de performance spécifiques au domaine et la dégradation des capacités générales. Nos contributions comprennent la publication d’un corpus biomédical français sous licence entièrement libre et de modèles de langue biomédicaux français spécialisés, ainsi que de nouvelles perspectives pour la mise en œuvre du pré-apprentissage spécialisé. Nos résultats suggèrent que la fusion des modèles (merging) est essentielle pour atténuer les compromis liés à la généralisation et peut même améliorer les performances sur certaines tâches spécialisées. Les données et les modèles sont accessibles à partir de la page suivante : https://huggingface.co/spaces/HealthDataHub/PARTAGES.
Mots clés : Adaptation aux domaines spécialisés, TALN biomédical