Évaluation d’un modèle bi-encodeur généraliste pour l’extraction de relations documentaires en contexte de données limitées
Robin Armingaud, Romaric Besançon
Résumé : L’extraction de relations documentaires (ER-DOC) est complexe en raison des interactions distantes entre entités. Bien que des modèles performants comme ATLOP existent, leur efficacité avec peu de données est peu étudiée. Nous proposons d’évaluer un modèle compact bi-encodeur pour l’ER-DOC,pré-entraîné sur des données synthétiques distillées, efficace en supervisé et en few-shot. Des tests sur trois datasets montrent que ce modèle surpasse les méthodes existantes en contexte de données limitées et atteint des performances en zero-shot comparables à celles de grands modèles, à moindre coût. Le code et le modèle seront disponibles publiquement.
Mots clés : Extraction de relations documentaires, few-shot, pré-entraînement