talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

MORFITT : Un corpus multi-labels d'articles scientifiques français dans le domaine biomédical

Yanis Labrak, Mickael Rouvier, Richard Dufour

Résumé : Cet article présente MORFITT, le premier corpus multi-labels en français annoté en spécialités dans le domaine médical. MORFITT est composé de 3 624 résumés d'articles scientifiques issus de PubMed, annotés en 12 spécialités pour un total de 5 116 annotations. Nous détaillons le corpus, les expérimentations et les résultats préliminaires obtenus à l'aide d'un classifieur fondé sur le modèle de langage pré-entraîné CamemBERT. Ces résultats préliminaires démontrent la difficulté de la tâche, avec un F-score moyen pondéré de 61,78%.

Mots clés : Analyse de documents scientifiques, Jeux de données composés des textes scientifiques