Tous les tokens sont-ils utiles pour les modèles de langues ?

Eve Sauvage, Cyril Grouin, Julien Tourille

Résumé : La qualité des plongements textuels est essentielle pour les tâches en aval de leur utilisation, mais leur utilisation par les modèles Transformer est coûteuse en termes de calcul en raison de la complexité quadratique sur la longueur des séquences. Cela motive les méthodes de réduction des tokens. Parallèlement, des études indiquent que les plongements actuels peuvent représenter de manière sous-optimale les informations sémantiques. Nous étudions une stratégie de réduction des tokens lexicale, qui ne conserve que le premier token de chaque mot. Cette approche s’inspire d’observations linguistiques selon lesquelles les humains sont capables de comprendre un texte malgré l’élision partielle de mots. Nous évaluons notre méthode sur le Massive Textual Embedding Benchmark (MTEB). Nos résultats indiquent que la suppression des tokens de sous-mots finaux ne dégrade pas significativement les performances. Cela implique que ces tokens ajoutent une charge de calcul supplémentaire sans contribuer de manière substantielle à la qualité sémantique, et que leur suppression peut permettre aux modèles de traiter des entrées plus longues.

Mots clés : Plongements Textuels, Elagage de tokens, représentation dans les modèles

Téléchargement :
[article]
[bibtex]

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Tous les tokens sont-ils utiles pour les modèles de langues ?

Eve Sauvage, Cyril Grouin, Julien Tourille