talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Etude des mesures de similarité hétérogènes pour l’extraction de relations sémantiques

Alexander Panchenko

Résumé : L’article évalue un éventail de mesures de similarité qui ont pour but de prédire les scores de similarité sémantique et les relations sémantiques qui s’établissent entre deux termes, et étudie les moyens de combiner ces mesures. Nous présentons une analyse comparative à grande échelle de 34 mesures basées sur des réseaux sémantiques, le Web, des corpus, ainsi que des définitions. L’article met en évidence les forces et les faiblesses de chaque approche en contexte de l’extraction de relations. Enfin, deux techniques de combinaison de mesures sont décrites et testées. Les résultats montrent que les mesures combinées sont plus performantes que toutes les mesures simples et aboutissent à une corrélation de 0,887 et une Precision(20) de 0,979.

Abstract : This paper evaluates a wide range of heterogeneous semantic similarity measures on the task of predicting semantic similarity scores and the task of predicting semantic relations that hold between two terms, and investigates ways to combine these measures. We present a large-scale benchmarking of 34 knowledge-, web-, corpus-, and definition-based similarity measures. The strengths and weaknesses of each approach regarding relation extraction are discussed. Finally, we describe and test two techniques for measure combination. These combined measures outperform all single measures, achieving a correlation of 0.887 and Precision(20) of 0.979.

Mots clés : Similarité sémantique, Relations sémantiques, Similarité distributionnelle

Keywords : Semantic Similarity, Semantic Relations, Distributional Similarity