Prétraitement syntaxique pour enrichir le Bag of Words en Topic Modeling
Connor MacLean, Denis Cavallucci
Résumé : Cet article propose une méthode de prétraitement innovante pour la topic modeling avec les modèles Latent Dirichlet Allocation (LDA) (Blei et al. , 2003) et Embedding Topic Model (ETM) (Dieng et al. , 2019), qui repose sur l'analyse des dépendances syntaxiques afin de construire des représentations plus riches du texte. En extrayant les têtes des groupes nominaux et verbaux ainsi que leurs compléments, notre approche génère des n-grammes syntaxiques (sn-grammes) plus informatifs que des bigrammes linéaires. Nous démontrons que cette stratégie permet de capturer les structures sémantiques complexes dans un corpus scientifique en français sur les énergies. Une évaluation expérimentale montre que, comparée à un prétraitement classique basé sur des unigrammes, notre approche accroît la diversité des sujets générés, tout en maintenant une cohérence raisonnable. Nous recommandons l'usage de métriques supplémentaires, telles que l' Inversed Rank-Biased Overlap (IRBO), pour évaluer cette diversité thématique. Nos résultats suggèrent que cette méthode enrichit la granularité des sujets extraits et permet des analyses plus fines de grands corpus textuels. Ce travail s'inscrit dans un projet de thèse de fouille de textes dans le but de mieux cibler des startups innovantes dans les énergies et les analyser selon la méthode TRIZ de résolution de contradictions techniques.
Mots clés : LDA, ETM, dépendance syntaxique, SN-gramme, énergies renouvelables.