talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Représentations Hiérarchiques pour les longs documents

Iskandar Boucharenc

Résumé : Les progrès récents en recherche d'information (RI) ont largement bénéficié des représentations vectorielles denses issues de systèmes du traitement automatique des langues. Les systèmes basés sur l'architecture transformeur excellent dans la compréhension de textes à l'échelle des jetons. Cependant, l'extension à des unités textuelles de niveaux supérieurs ($\textit{e.g.}$ fragments, phrases, documents ...) reste coûteuse en termes de mémoire et de calcul. Dans cet article, nous étudions la pertinence des solutions existantes pour représenter les fragments. Puis, nous proposons une modification des tâches de pré-entraînement afin de capturer l'information d'ordre supérieur dans des jetons hiérarchiques spéciaux. À partir d'un texte découpé de manière hiérarchique, chaque niveau possède son propre vecteur de représentation, partagé avec ses sous‑niveaux. Notre procédure de pré‑entraînement permet aux représentations d'ordre supérieur d'apprendre la sémantique du fragment de texte à partir des niveaux inférieurs. La fonction de perte se base sur la divergence de Kullback–Leibler. L'affinage en aval de ces représentations hiérarchiques sur des tâches classiques de RI est simple et direct. La méthode proposée permet d'utiliser le même système pour toutes les étapes de la RI, tout en simplifiant les processus de classement et de récupération de passages. De plus, ces représentations devraient être suffisamment flexibles pour être utilisées dans des tâches à long contexte.

Mots clés : Représentation de document, Recherche d'information, Affinage frugal