talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Rééquilibrer la distribution des labels tout en éliminant le temps d'attente inhérent dans l'apprentissage actif multi-label appliqué aux transformers

Maxime Arens, Jose G Moreno, Mohand Boughanem, Lucile Callebert

Résumé : L'annotation des données est cruciale pour l'apprentissage automatique, notamment dans les domaines techniques, où la qualité et la quantité des données annotées affectent significativement l'efficacité des modèles entraînés. L'utilisation de personnel humain est coûteuse, surtout lors de l'annotation pour la classification multi-label, les instances pouvant être associées à plusieurs labels.L'apprentissage actif (AA) vise à réduire les coûts d'annotation en sélectionnant intelligemment des instances pour l'annotation, plutôt que de les annoter de manière aléatoire. L'attention récente portée aux transformers a mis en lumière le potentiel de l'AA dans ce contexte.Cependant, dans des environnements pratiques, la mise en œuvre de l'AA rencontre des défis pratiques. Notamment, le temps entre les cycles d'AA n'est pas mis à contribution par les annotateurs. Pour résoudre ce problème, nous examinons des méthodes alternatives de sélection d'instances, visant à maximiser l'efficacité de l'annotation en s'intégrant au processus de l'AA. Nous commençons par évaluer deux méthodes existantes, en utilisant respectivement un échantillonnage aléatoire et des informations de cycle d'AA périmées. Ensuite, nous proposons notre méthode novatrice basée sur l'annotation des instances pour rééquilibrer la distribution des labels. Notre approche atténue les biais, améliore les performances du modèle (jusqu'à une amélioration de 23 % sur le score F1), réduit les disparités dépendantes de la stratégie (diminution d'environ 50 % sur l'écart type) et diminue le déséquilibre des libellés (diminution de 30 % sur le ratio moyen de déséquilibre).

Mots clés : apprentissage actif,transformers,temps d'attente,distribution des labels,multi-labels