@inproceedings{Bogdanov-Constantin-Bernard-Crabbe-Bernard:CORIA-TALN:2025,
    author = "Bogdanov, Sergei and Constantin, Alexandre and Bernard, Timoth\'ee and Crabb\'e, Beno{\^\i}t and Bernard, \'Etienne",
    title = "NuNER : Pr\'e-entra{\^\i}nement d'un encodeur pour la reconnaissance d'entit\'es nomm\'ees avec des donn\'ees annot\'ees automatiquement",
    booktitle = "Actes de CORIA-TALN-RJCRI-RECITAL 2025. Actes des 32\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles (TALN),  volume 2 : traductions d'articles publi\'es",
    month = "6",
    year = "2025",
    address = "Marseille, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "50-51",
    note = "",
    abstract = "Les grands mod\`eles de langues (ou LLM, pour {\guillemotleft} large language models {\guillemotright}) peuvent s'av\'erer tr\`es efficaces pour l'annotation de donn\'ees, ouvrant la voie \`a de nouvelles approches pour d\'evelopper des syst\`emes de traitement automatique des langues par apprentissage automatique. Dans cet article, nous d\'etaillons l'utilisation d'un LLM dans le d\'eveloppement de NuNER, un mod\`ele d'encodage du texte, compact et sp\'ecialis\'e dans la t\^ache de reconnaissance des entit\'es nomm\'ees (ou NER, pour {\guillemotleft} named entity recognition {\guillemotright}). NuNER fait ainsi partie de la famille des mod\`eles de fondation sp\'ecialis\'es. L'int\'er\^et de NuNER est qu'il ne n\'ecessite que tr\`es peu de donn\'ees d'affinage pour obtenir un syst\`eme de NER performant, quel que soit le domaine cible. Nous montrons qu'en r\'egime d'apprentissage avec peu d'exemples ({\guillemotleft} few-shot learning {\guillemotright}), NuNER surpasse les principaux mod\`eles de fondation de taille comparable et a des performances similaires \`a celles de mod\`eles de bien plus grande taille. Nos exp\'eriences montrent que la taille du jeu de pr\'e-entra{\^\i}nement mais aussi la diversit\'e des types d'entit\'es qui y occurrent jouent un r\^ole essentiel dans ces r\'esultats. NuNER et l'ensemble de ses donn\'ees d'entra{\^\i}nement sont disponibles sous licence libre MIT.",
    keywords = "reconnaissance d'entit\'es nomm\'ees, annotation, apprentissage avec peu d'exemples, extraction de relation, apprentissage sans exemple, apprentissage de repr\'esentation, distillation, jeux de donn\'ees pour le TAL",
    url = "https://talnarchives.atala.org/TALN/TALN-2025/36.pdf"
}