The Application of Singular Value Decomposition to Dutch Noun-Adjective Matrices
Tim Van de Cruys
Résumé : L’apprentissage automatique de la sémantique est un sujet assez populaire dans le domaine du traitement automatique du langage. Beaucoup de recherches ont été éffectuées en comparant des contextes syntaxiques similaires. On peut, par exemple, trouver des substantifs d’un champ sémantique similaire en examinant les adjectifs avec lesquels ils sont souvent en relation. Si on opte pour cette méthode, il y a néanmoins deux problèmes qui se posent, à savoir la complexité computationnelle et l’insuffisance des données. Cet article décrit l’application d’une technique mathématique, la décomposition en valeurs singulières. Cette technique a été appliquée au domaine de Recherche d’Information avec des résultats favorables. On se demande s’il est possible de trouver, grâce à la technique, des dimensions sémantiques latentes à l’espace d’adjectifs reduit avec lesquelles on peut faire un groupement qui est aussi bon ou meilleur que le groupement original.
Abstract : Automatic acquisition of semantics from text has received quite some attention in natural language processing. A lot of research has been done by looking at syntactically similar contexts. For example, semantically related nouns can be clustered by looking at the collocating adjectives. There are, however, two major problems with this approach : computational complexity and data sparseness. This paper describes the application of a mathematical technique called singular value decomposition, which has been succesfully applied in Information Retrieval to counter these problems. It is investigated whether this technique is also able to cluster nouns according to latent semantic dimensions in a reduced adjective space.
Mots clés : analyse sémantique, clustering sémantique, LSA
Keywords : semantic analysis, semantic clustering, LSA