talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Les représentations contextuelles stéréotypées dans les modèles de langue français : mieux les identifier pour ne pas les reproduire

Léandre Adam-Cuvillier, Pierre-Jean Larpin, Antoine Simoulin

Résumé : Nous présentons une étude pour mieux identifier comment les stéréotypes se reflètent dans les modèles de langue français. Nous adaptons le jeu de données StereoSet à la langue française et suivons le même protocole expérimental que celui utilisé pour l'anglais. Alors que les stéréotypes sont connus pour évoluer en fonction des contextes culturels et temporels, notre étude identifie des similitudes avec les résultats observés pour l'anglais, notamment en ce qui concerne la corrélation entre les capacités linguistiques des modèles et la présence de biais mesurables. Nous étendons notre étude en examinant des architectures de réseaux neuronaux similaires pré-entraînées sur des corpus linguistiques différents. Nos résultats mettent en évidence l'impact crucial des données de pré-entraînement sur les biais constatés dans les modèles français. De plus, nous observons que l'utilisation de corpus multilingues pour le pré-entraînement peut avoir un effet positif sur l'atténuation des biais.

Mots clés : stéréotype,modèle de langue,pré-entraîné,français