talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

GDN-CC : un jeu de données pour la clarification automatique de corpus de consultations citoyennes assistées par l’IA

Pierre-Antoine Lequeu, Léo Labat, Laurène Cave, Gaël Lejeune, François Yvon, Benjamin Piwowarski

Résumé : Les LLMs sont omniprésents dans le TAL moderne, et bien que leur applicabilité s’étende aux textes produits pour des activités démocratiques telles que les délibérations en ligne ou les consultations citoyennes, des questions éthiques ont été soulevées quant à leur utilisation comme outils d’analyse. Ce travail a deux objectifs : standardiser les contributions au \textbf{niveau pragmatique} pour faciliter l’analyse politique, et évaluer la fiabilité de petits LLM à \textit{poids ouverts} (exécutables localement) pour cette tâche. Nous introduisons la tâche de \textbf{Clarification de Corpus}, un cadre de prétraitement transformant des données brutes et multi-thématiques en unités argumentatives structurées et autonomes. À cette fin, nous présentons \textbf{GDN-CC}, un jeu de données issu du Grand Débat National, comprenant 2 285 unités, clarifiées et annotées manuellement selon leur structure argumentative. Nous partageons aussi \textbf{GDN-CC-large}, comprenant 300,000 unités annotées automatiquement.

Mots clés : IA Démocratique, Clarification de Corpus, Minage d'Argument