Explorer le graphe de voisinage pour améliorer les thésaurus distributionnels
Vincent Claveau, Ewa Kijak, Olivier Ferret
Résumé : Dans cet article, nous abordons le problème de construction et d’amélioration de thésaurus distributionnels. Nous montrons d’une part que les outils de recherche d’information peuvent être directement utilisés pour la construction de ces thésaurus, en offrant des performances comparables à l’état de l’art. Nous nous intéressons d’autre part plus spécifiquement à l’amélioration des thésaurus obtenus, vus comme des graphes de plus proches voisins. En tirant parti de certaines des informations de voisinage contenues dans ces graphes nous proposons plusieurs contributions. 1) Nous montrons comment améliorer globalement les listes de voisins en prenant en compte la réciprocité de la relation de voisinage, c’est-à-dire le fait qu’un mot soit un voisin proche d’un autre et vice-versa. 2) Nous proposons également une méthode permettant d’associer à chaque liste de voisins (i.e. à chaque entrées du thésaurus construit) un score de confiance. 3) Enfin, nous montrons comment utiliser ce score de confiance pour réordonner les listes de voisins les plus proches. Ces différentes contributions sont validées expérimentalement et offrent des améliorations significatives sur l’état de l’art.
Abstract : In this paper, we address the issue of building and improving a distributional thesaurus.We first show that existing tools from the information retrieval domain can be directly used in order to build a thesaurus with state-of-the-art performance. Secondly, we focus more specifically on improving the obtained thesaurus, seen as a graph of k-nearest neighbors. By exploiting information about the neighborhood contained in this graph, we propose several contributions. 1)We show how the lists of neighbors can be globally improved by examining the reciprocity of the neighboring relation, that is, the fact that a word can be close of another and vice-versa. 2) We also propose a method to associate a confidence score to any lists of nearest neighbors (i.e. any entry of the thesaurus). 3) Last, we demonstrate how these confidence scores can be used to reorder the closest neighbors of a word. These different contributions are validated through experiments and offer significant improvement over the state-of-theart.
Mots clés : thésaurus distributionnel, graphe de k proches voisins, fenêtre de Parzen, algorithme hongrois, Tnormes, recherche d’information
Keywords : distributional thesaurus, k nearest neighbor graph, Parzen window, Hungarian algorithm, T-norms, information retrieval