@inproceedings{Zve-Icard-Breton-Sainero-Bourgne-Ganascia:CORIA-TALN-2026:2026,
    author = "Zve, Evangelia and Icard, Benjamin and Breton, Alice and Sainero, Lila and Bourgne, Gauvain and Ganascia, Jean-Gabriel",
    title = "Le r\^ole des valeurs aberrantes dans l{\textquoteright}anticipation de nouvelles th\'ematiques : approche par repr\'esentations vectorielles sur un corpus d{\textquoteright}actualit\'e",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 33\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles.  Volume 2 : articles d\'ej\`a publi\'es",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "29-29",
    note = "",
    abstract = "Cet article vise \`a analyser le r\^ole des donn\'ees aberrantes (outliers), souvent assimil\'ees \`a du bruit en mod\'elisation th\'ematique, en tant que signaux faibles de l{\textquoteright}\'emergence de nouveaux th\`emes dans des corpus d{\textquoteright}actualit\'es dynamiques. \`A partir de repr\'esentations vectorielles (embeddings) produites par diff\'erents mod\`eles de langue \`a l{\textquoteright}\'etat de l{\textquoteright}art, et d{\textquoteright}une proc\'edure de regroupement cumulatif (clustering), nous suivons leur \'evolution au fil du temps dans deux corpus m\'ediatiques et institutionnelles en fran\c{c}ais et en anglais, centr\'es sur la responsabilit\'e sociale des entreprises et le changement climatique. Les r\'esultats mettent en \'evidence une r\'egularit\'e : au fil du temps, les donn\'ees aberrantes tendent \`a se structurer en th\`emes coh\'erents, et ce de mani\`ere robuste, ind\'ependamment du mod\`ele et de la langue consid\'er\'es.",
    keywords = "Traitement automatique du langage, Mod\'elisation th\'ematique dynamique, Corpus d'actualit\'e, Donn\'ees aberrantes, Th\'ematiques \'emergentes, Regroupement cumulatif, BERTopic, HDBSCAN, Conversion des outliers en th\'ematiques",
    url = "2.pdf"
}
