Projeter pour mieux fusionner : une histoire de bandit et de lit
Olivier Ferret
Résumé : La mise à disposition d'un nombre important de modèles de langue neuronaux affinés pour différentes tâches conduit assez naturellement à se poser la question de l'intérêt de les combiner, en particulier par le biais de la fusion de paramètres, option aboutissant au résultat demandant le moins de ressources. Dans cet article, nous proposons une nouvelle méthode entrant dans ce champ de recherche, fondé sur l'analyse procustéenne. Nous évaluons cette méthode pour la fusion de modèles affinés pour une même tâche à partir d'un même modèle de base, de type encodeur. En considérant neuf tâches du jeu de données GLUE et six méthodes de fusion de référence, nous montrons que notre proposition est capable d'améliorer les méthodes de fusion existantes dans la plupart des configurations testées.
Mots clés : Modèles de langue neuronaux, fusion de modèles, alignement d'espaces de représentation.