talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Analyse sémantique du corpus des Cahiers citoyens

Sami Guembour

Résumé : Cet article présente une recherche originale qui se concentre sur une analyse sémantique du corpus des Cahiers citoyens, qui regroupe les contributions et les doléances des citoyens français déposées au niveau des mairies dans le cadre du Grand Débat National. L'article offre un état de l'art complet sur les divers travaux réalisés sur ce corpus et vise à obtenir une compréhension approfondie des thèmes émergents et des préoccupations citoyennes dans les différentes régions. Plusieurs hypothèses concernant ces travaux ont été émises, et différentes méthodes ont été proposées pour répondre à ces hypothèses, de la segmentation et du pré-traitement du corpus au calcul des vecteurs de plongement des phrases à l'aide de modèles de langues pré-entraînés, aboutissant au clustering de ces vecteurs pour construire des regroupements en fonction des problématiques abordées.

Mots clés : TAL,Cahiers Citoyens,Grand débat National,Corpus,Modèle de langue,Vecteur de plongement,Classification