FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français
Hang Le, Loïc Vial, Benjamin Lecouteux, Jibril Frej, Didier Schwab, Besacier Laurent, Vincent Segonne, Benoît Crabbé, Allauzen Alexandre, Maximin Coavoux
Résumé : Les modèles de langue pré-entraînés sont désormais indispensables pour obtenir des résultats à l’état-de-l’art dans de nombreuses tâches du TALN. Tirant avantage de l’énorme quantité de textes bruts disponibles, ils permettent d’extraire des représentations continues des mots, contextualisées au niveau de la phrase. L’efficacité de ces représentations pour résoudre plusieurs tâches de TALN a été démontrée récemment pour l’anglais. Dans cet article, nous présentons et partageons FlauBERT, un ensemble de modèles appris sur un corpus français hétérogène et de taille importante. Des modèles de complexité différente sont entraînés à l’aide du nouveau supercalculateur Jean Zay du CNRS. Nous évaluons nos modèles de langue sur diverses tâches en français (classification de textes, paraphrase, inférence en langage naturel, analyse syntaxique, désambiguïsation automatique) et montrons qu’ils surpassent souvent les autres approches sur le référentiel d’évaluation FLUE également présenté ici.
Mots clés : FlauBERT, FLUE, BERT, français, modèles de langue, évaluation, classification de textes, analyse syntaxique, désambiguïsation lexicale, inférence en langue naturelle, paraphrase.