Approche guidée par la confiance pour l'annotation automatique d'un corpus de pré-entraînement en extraction d'événements
Salim Abdou Daoura, Sondes Bannour Souihi, Romaric Besançon, Olivier Ferret
Résumé : Les méthodes d'extraction d'information en zero-shot ou few-shot dépendent de vastes corpus annotés, qui restent rares et coûteux. Nous proposons une méthode d'annotation automatique utilisant les grands modèles de langage (LLM) pour annoter des données réelles et évaluer leur fiabilité via des scores de confiance. Nous avons ainsi créé Omnivent, un corpus généraliste d'événements en anglais couvrant 38 859 types d'événements et 9 981 rôles d'arguments. Nous introduisons également GLEE, un modèle transformeur bidirectionnel pour la détection d'événements (DE) et l'extraction d'arguments (EAE). Évalué sur neuf benchmarks couvrant sept domaines, GLEE surpasse en zero-shot les meilleures approches à base de LLM, tout en étant environ 25 fois plus compact.
Mots clés : extraction d'événements, annotations synthétiques, zero-shot