talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Apprentissage de dépendances entre labels pour la classification multi-labels à l'aide de transformeurs

Haytame Fallah, Elisabeth Murisasco, Emmanuel Bruno, Patrice Bellot

Résumé : Dans cet article, nous proposons des approches pour améliorer les architectures basées sur des transformeurs pour la classification de documents multi-labels. Les dépendances entre les labels sont cruciales dans ce contexte. Notre méthode, appelée DepReg, ajoute un terme de régularisation à la fonction de perte pour encourager le modèle à prédire des labels susceptibles de coexister. Nous introduisons également un nouveau jeu de données nommé "arXiv-ACM", composé de résumés scientifiques de la bibliothèque numérique arXiv, étiquetés avec les mots-clés ACM correspondants.

Mots clés : Extraction d'information dans les textes scientifiques, tableaux, figures, bibliographie, Analyse de documents scientifiques