talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

État des lieux des Transformers Vision-Langage : Un éclairage sur les données de pré-entraînement

Emmanuelle Salin

Résumé : Après avoir été développée en traitement automatique du langage, l'architecture Transformer s'est démocratisée dans de nombreux domaines de l'apprentissage automatique. Elle a permis de surpasser l'état de l'art dans de nombreuses tâches et a conduit à la création de très grands jeux de données afin d'améliorer les performances des modèles.   En multimodalité vision-langage, les résultats encourageants des Transformers favorisent la collecte de données image-texte à très grande échelle. Cependant, il est difficile d'évaluer la qualité de ces nouveaux jeux de données, ainsi que leur influence sur la performance de ces modèles, car notre compréhension des Transformers vision-langage est encore limitée. Nous explorons les études du domaine pour mieux comprendre les processus de collecte des jeux de données, les caractéristiques de ces données et leurs impacts sur les performances des modèles.

Mots clés : Langage, Multimodalité, Vision, Jeux de données