talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Regroupement automatique de documents en classes événementielles

Aurélien Bossard, Thierry Poibeau

Résumé : Cet article porte sur le regroupement automatique de documents sur une base événementielle. Après avoir précisé la notion d’événement, nous nous intéressons à la représentation des documents d’un corpus de dépêches, puis à une approche d’apprentissage pour réaliser les regroupements de manière non supervisée fondée sur k-means. Enfin, nous évaluons le système de regroupement de documents sur un corpus de taille réduite et nous discutons de l’évaluation quantitative de ce type de tâche.

Abstract : This paper analyses the problem of automatic document clustering based on events. We first specify the notion of event. Then, we detail the document modelling method and the learning approach for document clustering based on k-means. We finally evaluate our document clustering system on a small corpus and discuss the quantitative evaluation for this kind of task.

Mots clés : Regroupement de documents, Suivi d’événement

Keywords : Document clustering, Event tracking