talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Révéler des communautés latentes à partir des patterns de clickstream : un cadre d’analyse des plateformes web

Aabid Mohsine, Patrice Bellot, Simon Dumas Primbault

Résumé : Comprendre les communautés d’utilisateurs constitue un enjeu important pour l’analyse et l’amélioration des plateformes web. Cet article propose un cadre méthodologique fondé sur les données pour identifier des communautés latentes d’intérêt à partir de patterns de clickstream, sans recourir à des données annotées ni à un profilage préalable des utilisateurs. La méthode consiste à construire des signatures comportementales à partir des clics observés au niveau des sessions, en fonction des différents espaces de navigation sur le web, puis à appliquer des techniques de clustering non supervisé afin de mettre en évidence des segments d’utilisateurs distincts. Nous appliquons ce cadre à OpenEdition, une bibliothèque numérique de grande ampleur, en analysant plusieurs millions de sessions. Des métadonnées complémentaires sont ensuite mobilisées pour interpréter les clusters et évaluer leur interprétabilité ainsi que la prédictibilité de l’appartenance aux clusters à partir de ces métadonnées. Bien que démontré sur une plateforme académique, ce cadre peut être étendu à d’autres environnements web multi-sites.

Mots clés : Analyse de logs, Bibliothèque numérique, Modélisation utilisateur