talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Analyse quantitative et statistique de la sémantique dans un corpus technique

Ann Bertels, Dirk Speelman, Dirk Geeraerts

Résumé : Cet article présente la méthodologie et les résultats d’une analyse sémantique quantitative d’environ 5000 spécificités dans le domaine technique des machines-outils pour l’usinage des métaux. Les spécificités seront identifiées avec la méthode des mots-clés (KeyWords Method). Ensuite, elles seront soumises à une analyse sémantique quantitative, à partir du recouvrement des cooccurrences des cooccurrences, permettant de déterminer le degré de monosémie des spécificités. Finalement, les données quantitatives de spécificité et de monosémie feront l’objet d’analyses de régression. Nous avançons l’hypothèse que les mots (les plus) spécifiques du corpus technique ne sont pas (les plus) monosémiques. Nous présenterons ici les résultats statistiques, ainsi qu’une interprétation linguistique. Le but de cette étude est donc de vérifier si et dans quelle mesure les spécificités du corpus technique sont monosémiques ou polysémiques et quels sont les facteurs déterminants.

Abstract : This article discusses the methodology and results of a quantitative semantic analysis of about 5000 keywords (pivotal terms) in the domain of French machining terminology. The KeyWords Method is used in order to identify the most typical words. Next, a quantitative semantic analysis of the keywords determines their degree of monosemy, which is implemented in terms of degree of overlap between co-occurrents of co-occurrents of keywords. Finally, the quantitative data is submitted to various regression analyses, in order to check the hypothesis that the most typical terms are not always the most monosemous terms. This article presents the statistical results of this semantic analysis and provides linguistic interpretation. Building on corpus data, the investigation attempts to establish in how far keywords are polysemous and which factors are most predictive.

Mots clés : sémantique lexicale, sémantique quantitative, spécificités, polysémie, cooccurrences, analyse de régression

Keywords : lexical semantics, quantitative semantics, keywords, polysemy, co-occurrences, regression analysis