talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

NuNER : Pré-entraînement d'un encodeur pour la reconnaissance d'entités nommées avec des données annotées automatiquement

Sergei Bogdanov, Alexandre Constantin, Timothée Bernard, Benoît Crabbé, Étienne Bernard

Résumé : Les grands modèles de langues (ou LLM, pour « large language models ») peuvent s'avérer très efficaces pour l'annotation de données, ouvrant la voie à de nouvelles approches pour développer des systèmes de traitement automatique des langues par apprentissage automatique. Dans cet article, nous détaillons l'utilisation d'un LLM dans le développement de NuNER, un modèle d'encodage du texte, compact et spécialisé dans la tâche de reconnaissance des entités nommées (ou NER, pour « named entity recognition »). NuNER fait ainsi partie de la famille des modèles de fondation spécialisés. L'intérêt de NuNER est qu'il ne nécessite que très peu de données d'affinage pour obtenir un système de NER performant, quel que soit le domaine cible. Nous montrons qu'en régime d'apprentissage avec peu d'exemples (« few-shot learning »), NuNER surpasse les principaux modèles de fondation de taille comparable et a des performances similaires à celles de modèles de bien plus grande taille. Nos expériences montrent que la taille du jeu de pré-entraînement mais aussi la diversité des types d'entités qui y occurrent jouent un rôle essentiel dans ces résultats. NuNER et l'ensemble de ses données d'entraînement sont disponibles sous licence libre MIT.

Mots clés : reconnaissance d'entités nommées, annotation, apprentissage avec peu d'exemples, extraction de relation, apprentissage sans exemple, apprentissage de représentation, distillation, jeux de données pour le TAL