talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Approche guidée par la confiance pour l'annotation automatique d'un corpus de pré-entraînement en extraction d'événements

Salim Abdou Daoura, Sondes Bannour Souihi, Romaric Besançon, Olivier Ferret

Résumé : Les méthodes d'extraction d'information en zero-shot ou few-shot dépendent de vastes corpus annotés, qui restent rares et coûteux. Nous proposons une méthode d'annotation automatique utilisant les grands modèles de langage (LLM) pour annoter des données réelles et évaluer leur fiabilité via des scores de confiance. Nous avons ainsi créé Omnivent, un corpus généraliste d'événements en anglais couvrant 38 859 types d'événements et 9 981 rôles d'arguments. Nous introduisons également GLEE, un modèle transformeur bidirectionnel pour la détection d'événements (DE) et l'extraction d'arguments (EAE). Évalué sur neuf benchmarks couvrant sept domaines, GLEE surpasse en zero-shot les meilleures approches à base de LLM, tout en étant environ 25 fois plus compact.

Mots clés : extraction d'événements, annotations synthétiques, zero-shot