SyntaxGym pour le français: Ressource, annotation et évaluation de modèles de langues français et multilingues
Tatiana Bladier, Henri-José Deulofeu, Alexis Nasr
Résumé : Malgré les progrès récents des grands modèles de langues, leur compétence syntaxique reste peu étudiée, en particulier pour les langues autres que l’anglais. Alors que des ressources telles que BLiMP ou SyntaxGym ont permis d'étudier le comportement des modèles de langue sur certaines structures syntaxiques de l'anglais et de l'expagnol, il n'existe rien de comparable pour le français. Pour combler cette lacune, nous présentons SyntaxGymFR, un corpus d’évaluation soigneusement constitué et validé manuellement pour évaluer les capacités syntaxiques des modèles français et multilingues. SyntaxGymFR se compose de paires minimales de phrases ciblant plusieurs phénomènes syntaxiques du français. Nous décrivons la méthodologie d’annotation, la sélection des constructions linguistiques et les procédures de validation utilisées afin de garantir la couverture des phénomènes syntaxiques. De plus, nous présentons des résultats expérimentaux obtenus avec seize modèles français et multilingues, analysant leur sensibilité aux contrastes grammaticaux. Nos résultats fournissent de nouvelles perspectives sur les capacités de généralisation syntaxique des modèles français et établissent SyntaxGymFR comme une ressource pour les recherches futures sur l’évaluation de la compétence syntaxique du français.
Mots clés : Évaluation syntaxique, grands modèles de langue, SyntaxGym, annotation de corpus, évaluation comparative