talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Représentation vectorielle de mots pour l’indexation de notices bibliographiques

Morgane Marchand, Geoffroy Fouquier, Guillaume Pitel

Résumé : Cet article présente la contribution d’eXenSa à l’édition 2016 au DÉfi Fouille de Textes (DEFT) dont la tâche consiste à indexer des documents scientifiques par des mots clefs, préalablement sélectionnés par des professionnels. Le système proposé est purement statistique et combine une approche graphique et une approche sémantique. La première approche cherche dans le titre et le résumé du document des mots graphiquement proches des mots clefs du thésaurus. La seconde approche attribue à un nouveau document des mots clefs associés aux documents du corpus d’entraînement qui lui sont sémantiquement proches. Les deux approches utilisent des représentations vectorielles apprisent en utilisant l’algorithme NCISC, un algorithme stochastique de factorisation de matrices. Notre approche s’est classée première sur deux des corpus de spécialité proposés et deuxième sur les deux autres.

Mots clés : Indexation, mots clefs, espaces sémantiques, représentation vectorielle de mots.