De l'interprétabilité des dimensions à l'interprétabilité du vecteur : parcimonie et stabilité
Simon Guillot, Thibault Prouteau, Nicolas Dugue
Résumé : Les modèles d'apprentissage de plongements parcimonieux (SPINE, SINr) ont pour objectif de produire un espace dont les dimensions peuvent être interprétées. Ces modèles visent des cas d'application critiques du traitement de la langue naturelle (usages médicaux ou judiciaires) et une utilisation des représentations dans le cadre des humanités numériques. Nous proposons de considérer non plus seulement l'interprétabilité des dimensions de l'espace de description, mais celle des vecteurs de mots en eux-mêmes. Pour cela, nous introduisons un cadre d'évaluation incluant le critère de stabilité, et redéfinissant celui de la parcimonie en accord avec les théories psycholinguistiques. Tout d'abord, les évaluations en stabilité indiquent une faible variabilité sur les modèles considérés. Ensuite, pour redéfinir le critère de parcimonie, nous proposons une méthode d'éparsification des vecteurs de plongements en gardant les composantes les plus fortement activées de chaque vecteur. Il apparaît que pour les deux modèles SPINE et SINr, de bonnes performances en similarité sont permises par des vecteurs avec un très faible nombre de dimensions activées. Ces résultats permettent d'envisager l'interprétabilité de représentations éparses sans remettre en cause les performances.
Mots clés : Sémantique distributionnelle, traits sémantiques, interprétabilité, plongements.