talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Jeux de données en français pour l'affinage et l'évaluation de modèles de langue génératifs dans le domaine des mathématiques

Liam Duignan, Asma Graiess, Matteo van Ypersele, Jérôme Deshayes-Chossart, Olivier Ferret

Résumé : Que ce soit pour le post-entraînement des grands modèles de langue génératifs ou leur évaluation, les jeux de données de référence pour une tâche ou un domaine cible constituent des ressources essentielles pour le développement de ces modèles. La focalisation récente sur le raisonnement mathématique a ainsi donné lieu à la création d'un nombre important de jeux de données dans ce domaine. Néanmoins, la plupart d'entre eux sont en anglais et ceux disponibles pour d'autres langues résultent souvent d'une traduction à partir de l'anglais. Or, des études ont montré que même pour les mathématiques, les spécificités linguistiques et culturelles ont une influence notable sur les résultats des modèles, d'où l'intérêt de jeux de données natifs. Dans cet article, nous proposons ainsi d'exploiter deux sources de problèmes mathématiques en français afin de produire à la fois des données d'évaluation, sous la forme de questionnaires à choix multiples, et des données exploitables pour le post-entraînement. Nous présentons aussi les résultats de l'évaluation de différents modèles de référence sur ces données, montrant à la fois une même hiérarchie de ces modèles pour le français et l'anglais et l'importance du format d'évaluation sur les résultats.

Mots clés : Benchmark natif en français, Évaluation des LLMs en mathématiques