talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Approche supervisée de calcul de similarité sémantique entre paires de phrases

Khadim Dramé, Gorgoumack Sambe, Ibrahima Diop, Lamine Faty

Résumé : Ce papier décrit les méthodes que nous avons développées pour participer aux tâches 1 et 2 de l’édition 2020 du défi fouille de textes (DEFT 2020). Pour la première tâche, qui s’intéresse au calcul de scores de similarité sémantique entre paires de phrases, sur une échelle de 0 à 5, une approche supervisée où chaque paire de phrases est représentée par un ensemble d’attributs a été proposée. Des algorithmes classiques d’apprentissage automatique sont ensuite utilisés pour entrainer les modèles. Différentes mesures de similarité textuelle sont explorées et les plus pertinentes sont combinées pour supporter nos méthodes. Différentes combinaisons ont été testées et évaluées sur les données de test du DEFT 2020. Notre meilleur système qui s’appuie sur un modèle Random Forest a obtenu les meilleures performances sur la première tâche avec une EDRM de 0,8216.

Mots clés : similarité sémantique, phrases parallèles, méthodes supervisés, apprentissage automatique, forêts aléatoires, perceptron multicouche.