talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Traitement sémantique par analyse distributionnelle des noms transdisciplinaires des écrits scientifiques

Agnès Tutin

Résumé : Dans cette étude sur le lexique transdisciplinaire des écrits scientifiques, nous souhaitons évaluer dans quelle mesure les méthodes distributionnelles de TAL peuvent faciliter la tâche du linguiste dans le traitement sémantique de ce lexique. Après avoir défini le champ lexical et les corpus exploités, nous testons plusieurs méthodes basées sur des dépendances syntaxiques et observons les proximités sémantiques et les classes établies. L’hypothèse que certaines relations syntaxiques - en particulier les relations de sous-catégorisation – sont plus appropriées pour établir des classements sémantiques n’apparaît qu’en partie vérifiée. Si les relations de sous-catégorisation génèrent des proximités sémantiques entre les mots de meilleure qualité, cela ne semble pas le cas pour la classification par voisinage.

Abstract : In this study about general scientific lexicon, we aim at evaluating to what extent distributional methods in NLP can enhance the linguist’s task in the semantic treatment. After a definition of our lexical field and a presentation of our corpora, we evaluate several methods based on syntactic dependencies for establishing semantic similarities and semantic classes. Our hypothesis that some syntactic relations – namely subcategorized relations – is more relevant to establish semantic classes does not entirely appears valid. If subcategorized relations produce better semantic links between words, this is not the case with neighbour joigning clustering method.

Mots clés : corpus, écrits scientifiques, classes sémantiques, analyse distributionnelle

Keywords : corpus, scientific writings, semantic classes, distributional analysis