@inproceedings{Abdou-Daoura-Bannour-Souihi-Besancon-Ferret:CORIA-TALN-2026:2026,
    author = "Abdou Daoura, Salim and Bannour Souihi, Sondes and Besan\c{c}on, Romaric and Ferret, Olivier",
    title = "Approche guid\'ee par la confiance pour l'annotation automatique d'un corpus de pr\'e-entra{\^\i}nement en extraction d'\'ev\'enements",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 33\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles.  Volume 1 : articles scientifiques originaux",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "145-164",
    note = "",
    abstract = "Les m\'ethodes d'extraction d'information en zero-shot ou few-shot d\'ependent de vastes corpus annot\'es, qui restent rares et co\^uteux. 
Nous proposons une m\'ethode d'annotation automatique utilisant les grands mod\`eles de langage (LLM) pour annoter des donn\'ees r\'eelles et \'evaluer leur fiabilit\'e via des scores de confiance. Nous avons ainsi cr\'e\'e Omnivent, un corpus g\'en\'eraliste d'\'ev\'enements en anglais couvrant 38 859 types d'\'ev\'enements et 9 981 r\^oles d'arguments. Nous introduisons \'egalement GLEE, un mod\`ele transformeur bidirectionnel pour la d\'etection d'\'ev\'enements (DE) et l'extraction d'arguments (EAE). \'Evalu\'e sur neuf benchmarks couvrant sept domaines, GLEE surpasse en zero-shot les meilleures approches \`a base de LLM, tout en \'etant environ 25 fois plus compact.",
    keywords = "extraction d'\'ev\'enements, annotations synth\'etiques, zero-shot",
    url = "92.pdf"
}