talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Analyse Factorielle Neuronale pour Documents Textuels

Mathieu Delichère, Daniel Memmi

Résumé : En recherche documentaire, on représente souvent les documents textuels par des vecteurs lexicaux de grande dimension qui sont redondants et coûteux. Il est utile de réduire la dimension des ces représentations pour des raisons à la fois techniques et sémantiques. Cependant les techniques classiques d'analyse factorielle comme l'ACP ne permettent pas de traiter des vecteurs de très grande dimension. Nous avons alors utilisé une méthode adaptative neuronale (GHA) qui s'est révélée efficace pour calculer un nombre réduit de nouvelles dimensions représentatives des données. L'approche nous a permis de classer un corpus réel de pages Web avec de bons résultats.

Abstract : For document retrieval purposes, documents are often represented by high-dimensional lexical vectors, which are costly and redundant. Reducing vector dimensionality is then useful for both technical and semantic reasons. Classical data analysis methods such as PCA cannot unfortunately process vectors of very high dimension. We have used instead an adaptive neural network technique, the Generalized Hebbian Algorithm (GHA), which makes it possible to reduce high-dimension spaces. This approach allowed us to cluster areal end-user corpus of Web pages with very significant results.

Mots clés : Recherche documentaire, modèle vectoriel, réduction de dimension, analyse factorielle, ACP, GHA, réseaux de neurones

Keywords : Information retrieval, vector-space model, dimensionality reduction, data analysis, PCA, GHA, neural networks