DivMerge: une méthode de fusion de modèles pour le multi-tâches fondée sur une divergence

Brahim Touayouch, Loïc Fosse, Géraldine Damnati, Gwénolé Lecorvé

Résumé : La fusion de modèles affinés est une alternative prometteuse à un entraînement multi-tâches classique par mélange de données. Cependant, les possibles interférences entre tâches constituent un frein, surtout à mesure que le nombre de tâches à fusionner augmente. Nous présentons DivMerge, une méthode qui fusionne des modèles affinés sur différentes tâches en minimisant la divergence de Jensen-Shannon entre leurs sorties et celles du modèle fusionné, ceci sans données annotées et en équilibrant automatiquement l'importance respective de chaque tâche. Outre de solides propriétés théoriques démontrées par notre méthode, nos expériences sur des tâches de classification et de génération avec des modèles auto-régressifs montrent que DivMerge surpasse systématiquement les méthodes de la littérature et est robuste à l'augmentation du nombre de tâches.

Mots clés : fusion de modèles,modèles de langue,divergence

Téléchargement :
[article]
[bibtex]

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

DivMerge: une méthode de fusion de modèles pour le multi-tâches fondée sur une divergence

Brahim Touayouch, Loïc Fosse, Géraldine Damnati, Gwénolé Lecorvé