talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Comparaison des approches basées sur BERT et sur l'agent LLM pour la classification hiérarchique de narratifs dans les articles de presse multilingues

Yutong Wang, Mohamed-Nour Eldjadiri

Résumé : Nous présentons une étude comparative de deux paradigmes de classification hiérarchique multi-labels de texte dans le contexte de l'extraction des narratifs d'articles de presse. La première approche utilise un cadre séquentiel basé sur BERT qui identifie les narratifs et leurs sous-narratifs correspondants. La seconde utilise des agents LLM spécialisés, chacun effectuant une classification binaire pour des catégories narratives spécifiques. En évaluant les deux approches sur l'ensemble de données SemEval-2025 Task 10 dans cinq langues, nous constatons que l'approche basée sur BERT offre une efficacité de calcul et des performances interlinguistiques cohérentes (moyenne F1 macro : 0,475), tandis que la méthode basée sur les agents démontre une meilleure gestion des narratifs nuancés et de meilleures performances sur les données en anglais (F1 macro : 0,513). Notre analyse révèle des forces complémentaires entre ces paradigmes. Nous discutons des implications pratiques et proposons des orientations pour des systèmes hybrides potentiels.

Mots clés : classification de texte multi-classes multi-labels, catégorisation des narratifs, LLM, système d’agents LLM, BERT, AutoGen.