talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Nouvelle méthode syntagmatique de vectorisation appliquée au self-organizing map des textes vietnamiens

Tuan-Dang Nguyen

Résumé : Par ses caractéristiques éminentes dans la présentation des données, Self-Organizing Map (SOM) est particulièrement convenable à l’organisation des cartes. SOM se comporte d’un ensemble des vecteurs prototypes pour représenter les données d’entrée, et fait une projection, en conservant la topologie, à partir des vecteurs prototypes de n-dimensions sur une carte de 2-dimensions. Cette carte deviendra une vision qui reflète la structure des classes des données. Nous notons un problème crucial pour SOM, c’est la méthode de vectorisation des données. Dans nos études, les données se présentent sous forme des textes. Bien que le modèle général du SOM soit déjà créé, il nous faut de nouvelles recherches pour traiter des langues spécifiques, comme le vietnamien, qui sont de nature assez différente de l’anglais. Donc, nous avons appliqué la conception du syntagme pour établir un algorithme qui est capable de résoudre ce problème.

Mots clés : Self-Organizing Map, text mining, classification, vectorisation du texte, syntagme, évaluation visuelle