talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Évaluation des taux de synonymie et de polysémie dans un texte

Claude De Loupy

Résumé : La polysémie et la synonymie sont deux aspects fondamentaux de la langue. Nous présentons ici une évaluation de l’importance de ces deux phénomènes à l’aide de statistiques basées sur le lexique WordNet et sur le SemCor. Ainsi, on a un taux de polysémie théorique de 5 sens par mot dans le SemCor. Mais si on regarde les occurrences réelles, moins de 50 % des sens possibles sont utilisés. De même, s’il y a, en moyenne, 2,7 mots possibles pour désigner un concept qui apparaît dans le corpus, plus de la moitié d’entre eux ne sont jamais utilisés. Ces résultats relativisent l’utilité de telles ressources sémantiques pour le traitement de la langue.

Abstract : Polysemy and synonymy are two basic problems for natural language processing. In this paper, an evaluation of the importance of these phenomena is presented. It is based on the semantic lexicon WordNet and its associated corpus SemCor. Thus, when there are, in average, 5 possible senses for each word in the corpus, only half of them are really used. Similarly, if 2,7 words can be used to designate a concept, more than half of them are never used. These results tend to put the usefulness of such a resource in perspective.

Mots clés : taux de polysémie, taux de synonymie, lexiques sémantiques, WordNet, SemCor

Keywords : polysemy rate, synonymy rate, semantic lexicon, WordNet, SemCor