Pensez: Moins de données, meilleur raisonnement – Repenser les LLM français
Huy Hoang Ha
Résumé : Les grands modèles linguistiques (LLM) ont démontré des capacités remarquables dans diverses tâches de traitement automatique du langage naturel. Cependant, l'obtention de performances élevées dans des domaines spécialisés tels que le raisonnement mathématique et les langues autres que l'anglais nécessite souvent un entraînement intensif. Cet article étudie l'affinage stratégique sur un petit ensemble de données bilingue de haute qualité, afin d'améliorer à la fois les capacités de raisonnement et la maîtrise de la langue française d'un LLM. Nous démontrons des améliorations du raisonnement mathématique en utilisant seulement 2000 échantillons soigneusement sélectionnés. Ces résultats remettent en question l'hypothèse dominante selon laquelle des ensembles de données massifs sont une condition préalable à de solides performances de raisonnement pour les LLM.
Mots clés : Large language models, Sélection de données, Français, Raisonnement.