talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Détection de l’hétérogénéité des messages et leur corrélation avec les profils d’auteurs sur les réseaux sociaux

Shami Thirion Sen

Résumé : Les réseaux sociaux tels que X (ex-Twitter) sont des plateformes incontournables de discussions des sujets sociaux et politiques. Dans la continuité d’études ayant démontré l’hétérogénéité des idéologies au sein d’un même mouvement politique, nous examinons un jeu de données comportant 7373 messages avec le slogan « Nicolas qui paie » issus de X sur les manifestations du 10 septembre 2025 en France. Notre objectif est de détecter l’hétérogénéité des messages publiés ainsi que leurs corrélations avec différents profils d’auteurs, identifiés via leurs biographies. Nous adoptons une approche non supervisée reposant sur la vectorisation et le clustering des messages, suivie d’une extraction des termes les plus spécifiques des clusters selon la méthodologie de Lafon et d’une annotation des clusters à l’aide du grand modèle de langue Claude 3.7 Sonnet. Nos premiers résultats révèlent qu’une forte homogénéité des messages sélectionnés entrave la détection de corrélations entre les types de messages et les profils d’auteurs les ayant publiés.

Mots clés : Réseaux sociaux, détection d’hétérogénéité des données, analyse des profils d’utilisateurs, apprentissage non supervisé, clustering, annotation par LLM.