talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Découverte de connaissances dans les séquences par CRF non-supervisés

Vincent Claveau, Abir Ncibi

Résumé : Les tâches de découverte de connaissances ont pour but de faire émerger des groupes d’entités cohérents. Ils reposent le plus souvent sur du clustering, tout l’enjeu étant de définir une notion de similarité pertinentes entre ces entités. Dans cet article, nous proposons de détourner les champs aléatoires conditionnels (CRF), qui ont montré leur intérêt pour des tâches d’étiquetage supervisées, pour calculer indirectement ces similarités sur des séquences de textes. Pour cela, nous générons des problèmes d’étiquetage factices sur les données à traiter pour faire apparaître des régularités dans les étiquetages des entités. Nous décrivons comment ce cadre peut être mis en oeuvre et l’expérimentons sur deux tâches d’extraction d’informations. Les résultats obtenus démontrent l’intérêt de cette approche non-supervisée, qui ouvre de nombreuses pistes pour le calcul de similarités dans des espaces de représentations complexes de séquences.

Abstract : Knowledge discovery aims at bringing out coherent groups of entities. They are usually based on clustering ; the challenge is then to define a notion of similarity between the relevant entities. In this paper, we propose to divert Conditional Random Fields (CRF), which have shown their interest in supervised labeling tasks, in order tocalculate indirectly the similarities among text sequences. Our approach consists in generate artificial labeling problems on the data to be processed to reveal regularities in the labeling of the entities. We describe how this framework can be implemented and experiment it on two information retrieval tasks. The results demonstrate the usefulness of this unsupervised approach, which opens many avenues for defining similarities for complex representations of sequential data.

Mots clés : Découverte de connaissances, CRF, clustering, apprentissage non-supervisé, extraction d’informations

Keywords : Knowledge discovery, CRF, clustering, unsupervised machine learning, information extraction