talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Construction d'une mesure de similarité thématique non supervisée pour les conversations

Amandine Decker, Maxime Amblard

Résumé : La structure thématique d'une conversation représente la manière dont l'interaction est organisée à un niveau plus global que le strict enchaînement des interventions. Elle permet de comprendre comment la cohérence est maintenue sur le temps de l'échange. La création d'une mesure de similarité thématique qui donne un score de similarité à deux énoncés du point de vue thématique pourrait nous permettre de produire et d'analyser ces structures. Nous entraînons une mesure non supervisée, basée sur le modèle BERT avec prédiction de la phrase suivante, sur des conversations Reddit. La structure de Reddit nous fournit différents niveaux de proximité de cohérence entre des paires de messages, ce qui nous permet d'entraîner notre modèle avec une fonction de perte basée sur des comparaisons plutôt que sur des valeurs numériques attendues a priori. Cette mesure nous permet de trouver des ensembles d'interventions localement cohérents dans nos conversations Reddit, mais aussi de mesurer la variabilité en termes de thème tout au long d'une conversation.

Mots clés : topic modelling,apprentissage non supervisé,corpus,dialogue,Reddit,similarité