talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

How semantic is Latent Semantic Analysis?

Tonio Wandmacher

Résumé : Au cours des dix dernières années, l'analyse de la sémantique latente (LSA) a été utilisée dans de nombreuses approches TAL avec parfois de remarquables succès. Cependant, ses capacités à exprimer des ressemblances sémantiques n’ont pas été réellement recherchées de façon systématique. C’est l’objectif de ce travail, où la LSA est appliquée à un corpus de textes de langue courante (journal allemand). Les relations lexicales entre un mot et ses termes les plus proches sont analysés pour un test de vocabulaire. Ces résultats sont alors comparés avec les résultats obtenus lors d’une analyse des collocations.

Abstract : In the past decade, Latent Semantic Analysis (LSA) was used in many NLP approaches with sometimes remarkable success. However, its abilities to express semantic relatedness were not yet systematically investigated. This is the aim of our work, where LSA is applied to a general text corpus (German newspaper), and for a test vocabulary, the lexical relations between a test word and its closest neighbours are analysed. These results are compared to the results from a collocation analysis.

Mots clés : Analyse de la sémantique latente, analyse de collocations, relations lexicales, sémantique computationelle

Keywords : Latent Semantic Analysis, Collocation Analysis, lexical relations, computational semantics