Alignement contrastif de séries temporelles et métadonnées via verbalisation par LLM
Alexandre Legrosse
Résumé : L’alignement entre séries temporelles et métadonnées tabulaires est limité par la pauvreté sémantique des encodages catégoriels, qu’il s’agisse des représentations one-hot ou d’autres méthodes d’encodage. Ces approches ignorent les dynamiques et les interactions qui donnent pourtant tout leur sens aux données. Nous proposons une architecture d’alignement contrastif pour structurer un espace latent commun, reposant sur un pipeline de verbalisation par LLM qui transforme les métadonnées en descriptions textuelles contextualisées. Cette approche permet une recherche d’information bidirectionnelle entre séries temporelles et métadonnées. Évaluée sur 20 000 courbes de charge électrique via le Semantic Recall@$k$ (une métrique adaptée aux contextes où plusieurs individus partagent des attributs identiques), elle surpasse les baselines, démontrant que l’enrichissement sémantique par verbalisation améliore significativement la structuration de l’espace latent.
Mots clés : Alignement multimodal, séries temporelles, métadonnées tabulaires, apprentissage contrastif, verbalisation