talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Un critère de cohésion thématique fondé sur un graphe de cooccurrences

Clément De Groc, Xavier Tannier, Claude De Loupy

Résumé : Dans cet article, nous définissons un nouveau critère de cohésion thématique permettant de pondérer les termes d’un lexique thématique en fonction de leur pertinence. Le critère s’inspire des approches Web as corpus pour accumuler des connaissances exogènes sur un lexique. Ces connaissances sont ensuite modélisées sous forme de graphe et un algorithme de marche aléatoire est appliqué pour attribuer un score à chaque terme. Après avoir étudié les performances et la stabilité du critère proposé, nous l’évaluons sur une tâche d’aide à la création de lexiques bilingues.

Abstract : In this article, we propose a novel metric to weight specialized lexicons terms according to their relevance to the underlying thematic. Our method is inspired by Web as corpus approaches and accumulates exogenous knowledge about a specialized lexicon from the web. Terms cooccurrences are modelled as a graph and a random walk algorithm is applied to compute terms relevance. Finally, we study the performance and stability of the metric and evaluate it in a bilingual lexicon creation context.

Mots clés : Cohésion thématique, graphe de cooccurrences, marche aléatoire

Keywords : Thematic relevance, cooccurrence graph, random walk