@inproceedings{Lequeu-Labat-Cave-Lejeune-Yvon-Piwowarski:CORIA-TALN-2026:2026,
    author = {Lequeu, Pierre-Antoine and Labat, L\'eo and Cave, Laur\`ene and Lejeune, Ga\"el and Yvon, Fran\c{c}ois and Piwowarski, Benjamin},
    title = "GDN-CC : un jeu de donn\'ees pour la clarification automatique de corpus de consultations citoyennes assist\'ees par l{\textquoteright}IA",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 33\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles.  Volume 2 : articles d\'ej\`a publi\'es",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "22-22",
    note = "",
    abstract = "Les LLMs sont omnipr\'esents dans le TAL moderne, et bien que leur applicabilit\'e s{\textquoteright}\'etende aux textes produits pour des activit\'es d\'emocratiques telles que les d\'elib\'erations en ligne ou les consultations citoyennes, des questions \'ethiques ont \'et\'e soulev\'ees quant \`a leur utilisation comme outils d{\textquoteright}analyse. Ce travail a deux objectifs : standardiser les contributions au {\textbackslash}textbf{niveau pragmatique} pour faciliter l{\textquoteright}analyse politique, et \'evaluer la fiabilit\'e de petits LLM \`a {\textbackslash}textit{poids ouverts} (ex\'ecutables localement) pour cette t\^ache.
Nous introduisons la t\^ache de {\textbackslash}textbf{Clarification de Corpus}, un cadre de pr\'etraitement transformant des donn\'ees brutes et multi-th\'ematiques en unit\'es argumentatives structur\'ees et autonomes. \`A cette fin, nous pr\'esentons {\textbackslash}textbf{GDN-CC}, un jeu de donn\'ees issu du Grand D\'ebat National, comprenant 2 285 unit\'es, clarifi\'ees et annot\'ees manuellement selon leur structure argumentative. Nous partageons aussi {\textbackslash}textbf{GDN-CC-large}, comprenant 300,000 unit\'es annot\'ees automatiquement.",
    keywords = "IA D\'emocratique, Clarification de Corpus, Minage d'Argument",
    url = "85.pdf"
}