talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Évaluation de la Similarité Textuelle : Entre Sémantique et Surface dans les Représentations Neuronales

Julie Tytgat, Guillaume Wisniewski, Adrien Betrancourt

Résumé : La mesure de la similarité entre textes, qu'elle soit basée sur le sens, les caractères ou la phonétique, est essentielle dans de nombreuses applications. Les réseaux neuronaux, en transformant le texte en vecteurs, offrent une méthode pratique pour évaluer cette similarité. Cependant, l'utilisation de ces représentations pose un défi car les critères sous-jacents à cette similarité ne sont pas clairement définis, oscillant entre sémantique et surface. Notre étude, basée sur des expériences contrôlées, révèle que les différences de surface ont un impact plus significatif que les différences de sémantique sur les mesures de similarité entre les représentations neuronales des mots construites par de nombreux modèles pré-entrainés. Ces résultats soulèvent des questions sur la nature même de la similarité mesurée par les modèles neuronaux et leurs capacités à capturer les nuances sémantiques.

Mots clés : Similarité textuelle,Analyse des Représentations Neuronales,Analyse Comparative de Modèles Pré-entraînés