talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Etude de la reproductibilité des word embeddings : repérage des zones stables et instables dans le lexique

Bénédicte Pierrejean, Ludovic Tanguy

Résumé : Les modèles vectoriels de sémantique distributionnelle (ou word embeddings), notamment ceux produits par les méthodes neuronales, posent des questions de reproductibilité et donnent des représentations différentes à chaque utilisation, même sans modifier leurs paramètres. Nous présentons ici un ensemble d’expérimentations permettant de mesurer cette instabilité, à la fois globalement et localement. Globalement, nous avons mesuré le taux de variation du voisinage des mots sur trois corpus différents, qui est estimé autour de 17% pour les 25 plus proches voisins d’un mot. Localement, nous avons identifié et caractérisé certaines zones de l’espace sémantique qui montrent une relative stabilité, ainsi que des cas de grande instabilité.

Mots clés : plongements lexicaux, évaluation, stabilité, reproductibilité.