talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Recherche de similarité thématique en temps réel au sein d'un débat en ligne

Noémie-Fleur Sandillon-Rezer, Mathieu Lafourcade

Résumé : Cet article se focalise sur l’utilisation d’un large réseau lexico-sémantique français pour le calcul de similarité thématique d’interventions au cours d’un débat en ligne dans les lycées, proche du temps réel. Pour cela, notre système extrait des informations sémantiques du réseau et crée à la volée des vecteurs enrichis pour chaque fragment de texte. Les données récupérées sont contextualisées via un algorithme de propagation. Les vecteurs résultat permettent aux fragments de texte d’être comparés. Notre méthode aide à trouver les thématiques émergentes des débats et à identifier des clusters d’opinion. La contrainte temps réel nous force à sélectionner précisément les informations que nous incluons, aussi bien pour les temps de calcul des vecteurs créés que la qualité de ceux-ci.

Mots clés : proximité thématique, réseau lexico-sémantique, vecteurs lexicalisés.