Réentraînement conscient de la quantification : un arbitrage entre pré-entraînement et affinage des modèles de langue spécialisés
Xavier Pillet, Cédric Gernigon, Anastasia Volkova, Richard Dufour, Adeline Granet
Résumé : La quantification est une technique largement adoptée pour réduire l'empreinte mémoire et le coût computationnel des réseaux de neurones. Si la quantification de modèles pré-entraînés s'avère efficace, un réentraînement est souvent nécessaire pour les formats de quantification extrême. L'affinage (\textit{fine-tuning}), quant à lui, permet d'adapter des modèles généralistes à des domaines spécifiques, bien que la quantification puisse dégrader considérablement leurs performances. Ce travail étudie le coût d'entraînement des modèles de langue ajustés et quantifiés. La formalisation du compromis calculatoire entre l'adaptation au domaine et l'affinage, permet de démontrer que les points de contrôle spécialisés (checkpoints) présentent une plus grande robustesse au bruit de quantification. Ces résultats établissent un schéma directeur viable pour le déploiement de modèles de TAL biomédicaux performants dans des environnements embarqués aux ressources limitées.
Mots clés : Quantification, QAT, TAL Biomédical, Modèles de type BERT