talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Oui à l'Échelle, Non à la Mémoire: Affinage Léger des LLMs par Réseaux Latéraux

Estelle Zheng, Sébastien Warichet, Emmanuel Helbert, Christophe Cerisara

Résumé : L'affinage des grands modèles de langues (LLMs) est souvent limité par la mémoire disponible sur les GPUs. Les méthodes d'affinage fin efficace (PEFT), telles que QLoRA, réduisent le nombre de paramètres pouvant être entraînés, tout en utilisant une grande quantité de mémoire lors de l'entraînement dû à la rétropropagation du modèle dans son intégralité. Nous revisitons l'architecture Ladder (LST), une technique PEFT rarement explorée qui ajoute un petit réseau latéral. Nous démontrons que sa pente des lois d'échelles correspond à celle de QLoRA, tout en réduisant son pic d'utilisation mémoire. Sur la tâche de résolutions des maths, LST a des performances proches de QLoRA, tout en offrant une possibilité d'affiner sur des GPU grand public. Nous exploitons une extension de l'architecture de la Ladder en introduisant xLadder, une variante qui augmente la profondeur du réseau latéral tout en raccourcissant sa chaîne de pensée (CoT).

Mots clés : affinage, efficacité, peu coûteux, LLM