talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Pensez: Moins de données, meilleur raisonnement – Repenser les LLM français

Huy Hoang Ha

Résumé : Les grands modèles linguistiques (LLM) ont démontré des capacités remarquables dans diverses tâches de traitement automatique du langage naturel. Cependant, l'obtention de performances élevées dans des domaines spécialisés tels que le raisonnement mathématique et les langues autres que l'anglais nécessite souvent un entraînement intensif. Cet article étudie l'affinage stratégique sur un petit ensemble de données bilingue de haute qualité, afin d'améliorer à la fois les capacités de raisonnement et la maîtrise de la langue française d'un LLM. Nous démontrons des améliorations du raisonnement mathématique en utilisant seulement 2000 échantillons soigneusement sélectionnés. Ces résultats remettent en question l'hypothèse dominante selon laquelle des ensembles de données massifs sont une condition préalable à de solides performances de raisonnement pour les LLM.

Mots clés : Large language models, Sélection de données, Français, Raisonnement.