talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Couplage du contexte local et de prototypes sémantiques globaux via une architecture hiérarchique pour l’étiquetage des rôles rhétoriques

Anas Belfathi, Nicolas Hernandez, Monceaux Laura, Warren Bonnard, Mary Catherine Lavissière, Christine Jacquin, Richard Dufour

Résumé : L’étiquetage des rôles rhétoriques (Rhetorical Role Labeling, RRL) consiste à identifier le rôle fonctionnel de chaque phrase dans un document ; il s’agit d’une tâche clé pour la compréhension du discours dans des domaines tels que le droit et la médecine. Bien que les modèles hiérarchiques capturent efficacement les dépendances locales, ils restent limités pour modéliser des caractéristiques globales à l’échelle du corpus. Pour remédier à cette limite, nous proposons deux méthodes fondées sur des prototypes qui intègrent le contexte local à des représentations globales. La régularisation fondée sur des prototypes (Prototype-Based Regularization, PBR) apprend des prototypes souples au moyen d’une perte auxiliaire basée sur la distance afin de structurer l’espace latent, tandis que la modulation conditionnée par prototypes (Prototype-Conditioned Modulation, PCM) construit des prototypes à l’échelle du corpus et les injecte durant l’entraînement et l’inférence. Compte tenu de la rareté des ressources pour le RRL, nous introduisons SCOTUS-LAW, le premier jeu de données d’opinions de la Cour suprême des États-Unis annotées en rôles rhétoriques selon trois niveaux de granularité : catégorie, fonction rhétorique et étape. Des expériences menées sur des benchmarks juridiques, médicaux et scientifiques montrent des améliorations régulières par rapport à de fortes bases de référence, avec des gains d’environ 4 points de Macro-F1 sur les rôles peu fréquents. Nous analysons en outre les implications de ces résultats à l’ère des grands modèles de langage et complétons nos observations par une évaluation experte.

Mots clés : Étiquetage des rôles rhétoriques, Architecture hiérarchique, Prototypes sémantiques, Domaine juridique