talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Simbow : une mesure de similarité sémantique entre textes

Delphine Charlet, Géraldine Damnati

Résumé : Cet article décrit une mesure de similarité sémantique non-supervisée qui repose sur l’introduction d’une matrice de relations entre mots, dans un paradigme de mesure cosinus entre sacs de mots. La métrique obtenue, apparentée à soft-cosinus, tient compte des relations entre mots qui peuvent être d’ordre lexical ou sémantique selon la matrice considérée. La mise en œuvre de cette métrique sur la tâche qui consiste à mesurer des similarités sémantiques entre questions posées sur un forum, a remporté la campagne d’évaluation SemEval2017. Si l’approche soumise à la campagne est une combinaison supervisée de différentes mesures non-supervisées, nous présentons dans cet article en détail les métriques non-supervisées, qui présentent l’avantage de produire de bons résultats sans nécessiter de ressources spécifiques autres que des données non annotées du domaine considéré.

Mots clés : similarité sémantique entre textes, relations sémantiques, questions de forums.