Le rôle des valeurs aberrantes dans l’anticipation de nouvelles thématiques : approche par représentations vectorielles sur un corpus d’actualité
Evangelia Zve, Benjamin Icard, Alice Breton, Lila Sainero, Gauvain Bourgne, Jean-Gabriel Ganascia
Résumé : Cet article vise à analyser le rôle des données aberrantes (outliers), souvent assimilées à du bruit en modélisation thématique, en tant que signaux faibles de l’émergence de nouveaux thèmes dans des corpus d’actualités dynamiques. À partir de représentations vectorielles (embeddings) produites par différents modèles de langue à l’état de l’art, et d’une procédure de regroupement cumulatif (clustering), nous suivons leur évolution au fil du temps dans deux corpus médiatiques et institutionnelles en français et en anglais, centrés sur la responsabilité sociale des entreprises et le changement climatique. Les résultats mettent en évidence une régularité : au fil du temps, les données aberrantes tendent à se structurer en thèmes cohérents, et ce de manière robuste, indépendamment du modèle et de la langue considérés.
Mots clés : Traitement automatique du langage, Modélisation thématique dynamique, Corpus d'actualité, Données aberrantes, Thématiques émergentes, Regroupement cumulatif, BERTopic, HDBSCAN, Conversion des outliers en thématiques