@inproceedings{Berriche-Nouri-Clavel-Cointet:CORIA-TALN-2026:2026,
    author = "Berriche, Manon and Nouri, C\'elia and Clavel, Chlo\'e and Cointet, Jean-Philippe",
    title = "SPOT : un jeu de donn\'ees fran\c{c}ais annot\'e pour la d\'etection d{\textquoteright}interventions critiques dans les conversations en ligne",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 33\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles.  Volume 2 : articles d\'ej\`a publi\'es",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "43-44",
    note = "",
    abstract = "Nous pr\'esentons SPOT (Stopping Points in Online Threads), le premier corpus annot\'e traduisant le concept de sociologie pragmatique de {\guillemotleft} point d'arr\^et {\guillemotright} en une t\^ache reproductible de traitement automatique du langage naturel (TALN). Les points d'arr\^et sont des interventions critiques ordinaires qui interrompent ou redirigent les discussions en ligne sous diverses formes {\textemdash} ironie, doute subtil ou arguments fragmentaires. Nous rendons op\'erationnel ce concept sous la forme d'une t\^ache de classification binaire, et fournissons un guide d'annotation pr\'ecis pour cette t\^ache menant \`a des scores d'accords inter-annotateurs robustes. Le corpus contient 43 305 commentaires Facebook en fran\c{c}ais annot\'es manuellement comme {\textquotedblleft}point d{\textquoteright}arr\^et{\textquotedblright} ou non, et enrichis avec des m\'etadonn\'ees contextuelles (article partag\'e, publication, commentaire parent, page ou groupe, et source m\'ediatique). Ces commentaires sont li\'es \`a des publications partageant des URL signal\'ees comme \'etant des fausses informations par les utilisateurs sur des groupes ou pages Facebook publiques. Nous comparons des mod\`eles d'encodeurs affin\'es (CamemBERT) et des grands mod\`eles de langue (LLM) prompt\'es avec diff\'erentes strat\'egies de prompting. Les r\'esultats montrent que les encodeurs affin\'es surpassent les LLM prompt\'es de plus de 10 points de pourcentage en termes de score F1, ce qui confirme l'importance de l'apprentissage supervis\'e de t\^aches sociales et interactionnelles nouvelles ou peu document\'ees, comme la d\'etection des points d{\textquoteright}arr\^et dans des commentaires Facebook, notamment lorsque ces t\^aches sont non anglophones. L'int\'egration de m\'etadonn\'ees contextuelles am\'eliore encore les scores F1 des mod\`eles d'encodeurs, qui passent de 0,75 \`a 0,78. Nous publions l'ensemble de donn\'ees anonymis\'ees, ainsi que le guide d'annotation et notre code (https://anonymous.4open.science/r/SPOT-benchmark-2E65), afin de favoriser la transparence et la reproductibilit\'e de la recherche.",
    keywords = "annotation, classification, contexte de publication, conversations en ligne, Facebook, fran\c{c}ais, interventions critiques, jeu de donn\'ees, mod\'eration, point d'arr\^et, r\'eseaux sociaux, sociologie pragmatique, traitement automatique du langage naturel",
    url = "7.pdf"
}