talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Tâches Auxiliaires Multilingues pour le Transfert de Modèles de Détection de Discours Haineux

Arij Riabi, Syrielle Montariol, Djamé Seddah

Résumé : La tâche de détection de contenus haineux est ardue, car elle nécessite des connaissances culturelles et contextuelles approfondies ; les connaissances nécessaires varient, entre autres, selon la langue du locateur ou la cible du contenu. Or, des données annotées pour des domaines et des langues spécifiques sont souvent absentes ou limitées. C’est là que les données dans d’autres langues peuvent être exploitées ; mais du fait de ces variations, le transfert cross-lingue est souvent difficile. Dans cet article, nous mettons en évidence cette limitation pour plusieurs domaines et langues et montrons l’impact positif de l’apprentissage de tâches auxiliaires multilingues - analyse de sentiments, reconnaissance des entités nommées et tâches reposant sur des informations morpho-syntaxiques - sur le transfert cross-lingue zéro-shot des modèles de détection de discours haineux, afin de combler ce fossé culturel.

Mots clés : Détection des Discours Haineux, Transfert Cross-lingue, Apprentissage multitâche.