@inproceedings{Sauvage-Grouin-Tourille:CORIA-TALN-2026:2026,
    author = "Sauvage, Eve and Grouin, Cyril and Tourille, Julien",
    title = "Tous les tokens sont-ils utiles pour les mod\`eles de langues ?",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 33\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles.  Volume 1 : articles scientifiques originaux",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "595-609",
    note = "",
    abstract = "La qualit\'e des plongements textuels est essentielle pour les t\^aches en aval de leur utilisation, mais
leur utilisation par les mod\`eles Transformer est co\^uteuse en termes de calcul en raison de la complexit\'e quadratique sur la longueur des s\'equences. Cela motive les m\'ethodes de r\'eduction des tokens.
Parall\`element, des \'etudes indiquent que les plongements actuels peuvent repr\'esenter de mani\`ere
sous-optimale les informations s\'emantiques. Nous \'etudions une strat\'egie de r\'eduction des tokens
lexicale, qui ne conserve que le premier token de chaque mot. Cette approche s{\textquoteright}inspire d{\textquoteright}observations
linguistiques selon lesquelles les humains sont capables de comprendre un texte malgr\'e l{\textquoteright}\'elision
partielle de mots. Nous \'evaluons notre m\'ethode sur le Massive Textual Embedding Benchmark
(MTEB). Nos r\'esultats indiquent que la suppression des tokens de sous-mots finaux ne d\'egrade pas
significativement les performances. Cela implique que ces tokens ajoutent une charge de calcul suppl\'ementaire sans contribuer de mani\`ere substantielle \`a la qualit\'e s\'emantique, et que leur suppression
peut permettre aux mod\`eles de traiter des entr\'ees plus longues.",
    keywords = "Plongements Textuels, Elagage de tokens, repr\'esentation dans les mod\`eles",
    url = "107.pdf"
}