@inproceedings{Boucharenc:CORIA-TALN-2026:2026,
    author = "Boucharenc, Iskandar",
    title = "Repr\'esentations Hi\'erarchiques pour les longs documents",
    booktitle = "Actes de CORIA-TALN 2026. Actes de la 21e Conf\'erence en Recherche d'Information et Applications.  Volume 2 : articles d\'ej\`a publi\'es",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "83-83",
    note = "",
    abstract = "Les progr\`es r\'ecents en recherche d'information (RI) ont largement b\'en\'efici\'e des repr\'esentations vectorielles denses issues de syst\`emes du traitement automatique des langues. Les syst\`emes bas\'es sur l'architecture transformeur excellent dans la compr\'ehension de textes \`a l'\'echelle des jetons. Cependant, l'extension \`a des unit\'es textuelles de niveaux sup\'erieurs (${\textbackslash}textit{e.g.}$ fragments, phrases, documents ...) reste co\^uteuse en termes de m\'emoire et de calcul. Dans cet article, nous \'etudions la pertinence des solutions existantes pour repr\'esenter les fragments. Puis, nous proposons une modification des t\^aches de pr\'e-entra{\^\i}nement afin de capturer l'information d'ordre sup\'erieur dans des jetons hi\'erarchiques sp\'eciaux. \`A partir d'un texte d\'ecoup\'e de mani\`ere hi\'erarchique, chaque niveau poss\`ede son propre vecteur de repr\'esentation, partag\'e avec ses sous\nobreakdash-niveaux. Notre proc\'edure de pr\'e\nobreakdash-entra{\^\i}nement permet aux repr\'esentations d'ordre sup\'erieur d'apprendre la s\'emantique du fragment de texte \`a partir des niveaux inf\'erieurs. La fonction de perte se base sur la divergence de Kullback{\textendash}Leibler. L'affinage en aval de ces repr\'esentations hi\'erarchiques sur des t\^aches classiques de RI est simple et direct. La m\'ethode propos\'ee permet d'utiliser le m\^eme syst\`eme pour toutes les \'etapes de la RI, tout en simplifiant les processus de classement et de r\'ecup\'eration de passages. De plus, ces repr\'esentations devraient \^etre suffisamment flexibles pour \^etre utilis\'ees dans des t\^aches \`a long contexte.",
    keywords = "Repr\'esentation de document, Recherche d'information, Affinage frugal",
    url = "4004.pdf"
}
