talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Fouille de données pour associer des noms de sessions aux articles scientifiques

Solen Quiniou, Peggy Cellier, Thierry Charnois

Résumé : Nous décrivons dans cet article notre participation à l’édition 2014 de DEFT. Nous nous intéressons à la tâche consistant à associer des noms de session aux articles d’une conférence. Pour ce faire, nous proposons une approche originale, symbolique et non supervisée, de découverte de connaissances. L’approche combine des méthodes de fouille de données séquentielles et de fouille de graphes. La fouille de séquences permet d’extraire des motifs fréquents dans le but de construire des descriptions des articles et des sessions. Ces descriptions sont ensuite représentées par un graphe. Une technique de fouille de graphes appliquée sur ce graphe permet d’obtenir des collections de sous-graphes homogènes, correspondant à des collections d’articles et de noms de sessions.

Mots clés : Fouille de données, fouille de séquences, fouille de graphes, catégorisation d’articles.