talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

SPOT : un jeu de données français annoté pour la détection d’interventions critiques dans les conversations en ligne

Manon Berriche, Célia Nouri, Chloé Clavel, Jean-Philippe Cointet

Résumé : Nous présentons SPOT (Stopping Points in Online Threads), le premier corpus annoté traduisant le concept de sociologie pragmatique de « point d'arrêt » en une tâche reproductible de traitement automatique du langage naturel (TALN). Les points d'arrêt sont des interventions critiques ordinaires qui interrompent ou redirigent les discussions en ligne sous diverses formes — ironie, doute subtil ou arguments fragmentaires. Nous rendons opérationnel ce concept sous la forme d'une tâche de classification binaire, et fournissons un guide d'annotation précis pour cette tâche menant à des scores d'accords inter-annotateurs robustes. Le corpus contient 43 305 commentaires Facebook en français annotés manuellement comme “point d’arrêt” ou non, et enrichis avec des métadonnées contextuelles (article partagé, publication, commentaire parent, page ou groupe, et source médiatique). Ces commentaires sont liés à des publications partageant des URL signalées comme étant des fausses informations par les utilisateurs sur des groupes ou pages Facebook publiques. Nous comparons des modèles d'encodeurs affinés (CamemBERT) et des grands modèles de langue (LLM) promptés avec différentes stratégies de prompting. Les résultats montrent que les encodeurs affinés surpassent les LLM promptés de plus de 10 points de pourcentage en termes de score F1, ce qui confirme l'importance de l'apprentissage supervisé de tâches sociales et interactionnelles nouvelles ou peu documentées, comme la détection des points d’arrêt dans des commentaires Facebook, notamment lorsque ces tâches sont non anglophones. L'intégration de métadonnées contextuelles améliore encore les scores F1 des modèles d'encodeurs, qui passent de 0,75 à 0,78. Nous publions l'ensemble de données anonymisées, ainsi que le guide d'annotation et notre code (https://anonymous.4open.science/r/SPOT-benchmark-2E65), afin de favoriser la transparence et la reproductibilité de la recherche.

Mots clés : annotation, classification, contexte de publication, conversations en ligne, Facebook, français, interventions critiques, jeu de données, modération, point d'arrêt, réseaux sociaux, sociologie pragmatique, traitement automatique du langage naturel