@inproceedings{El-Boukkouri:RECITAL:2020,
    author = "El Boukkouri, Hicham",
    title = "R\'e-entra{\^\i}ner ou entra{\^\i}ner soi-m\^eme ? Strat\'egies de pr\'e-entra{\^\i}nement de BERT en domaine m\'edical",
    booktitle = "Actes de la Conf\'erence sur le Traitement Automatique des Langues Naturelles. Volume 3 : Rencontre des \'Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues",
    month = "6",
    year = "2020",
    address = "Nancy, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "29-42",
    note = "Re-train or train from scratch ? Pre-training strategies for BERT in the medical domain ",
    abstract = "Les mod\`eles BERT employ\'es en domaine sp\'ecialis\'e semblent tous d\'ecouler d'une strat\'egie assez simple : utiliser le mod\`ele BERT originel comme initialisation puis poursuivre l'entra{\^\i}nement de celuici sur un corpus sp\'ecialis\'e. Il est clair que cette approche aboutit \`a des mod\`eles plut\^ot performants (e.g. BioBERT (Lee et al., 2020), SciBERT (Beltagy et al., 2019), BlueBERT (Peng et al., 2019)). Cependant, il para{\^\i}t raisonnable de penser qu'entra{\^\i}ner un mod\`ele directement sur un corpus sp\'ecialis\'e, en employant un vocabulaire sp\'ecialis\'e, puisse aboutir \`a des plongements mieux adapt\'es au domaine et donc faire progresser les performances. Afin de tester cette hypoth\`ese, nous entra{\^\i}nons des mod\`eles BERT \`a partir de z\'ero en testant diff\'erentes configurations m\^elant corpus g\'en\'eraux et corpus m\'edicaux et biom\'edicaux. Sur la base d'\'evaluations men\'ees sur quatre t\^aches diff\'erentes, nous constatons que le corpus de d\'epart influence peu la performance d'un mod\`ele BERT lorsque celui-ci est r\'e-entra{\^\i}n\'e sur un corpus m\'edical.",
    keywords = "plongements de mots, plongements contextualis\'es, BERT, domaine m\'edical, biom\'edical, domaine sp\'ecialis\'e, adaptation au domaine.",
    url = "http://talnarchives.atala.org/RECITAL/RECITAL-2020/185.pdf"
}
