Clustering de résumés LLM guidés par l'utilisateur : vers une approche constructiviste et réaliste unifiée
Carl Hatoum, Catherine Combes, Virginie Fresse, Christophe Gravier, Mathieu Orzalesi
Résumé : Nous introduisons un cadre hybride combinant grands modèles de langage et techniques de regroupement pour extraire, résumer, évaluer et structurer automatiquement les connaissances de larges collections textuelles. Après avoir sélectionné, via une métrique d'entropie sémantique, la stratégie de prompt la plus stable, un LLM génère des résumés modulables qui font l'objet d'une évaluation factuelle assurant leur fiabilité. Ces résumés validés sont ensuite vectorisés, projetés en basse dimension et regroupés en thématiques. Optionnellement, un second LLM affine ensuite leurs libellés pour renforcer l'interprétabilité. Expérimentée sur un corpus majeur d'incidents aériens, cette approche augmente la cohérence et la granularité des clusters thématiques par rapport à une analyse directe des textes, ouvrant de nouvelles perspectives pour la recherche d'information et l'exploration de bases documentaires.
Mots clés : Résumé constructiviste, Génération de texte contrôlée, Entropie sémantique, Regroupement, Modélisation thématique.