talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Analyse distributionnelle de corpus spécialisés pour l’identification de relations lexico-sémantiques

Gabriel Bernier-Colborne

Résumé : Nous décrivons une étude visant à repérer automatiquement des relations lexico-sémantiques à partir de corpus spécialisés au moyen d’une méthode d’analyse distributionnelle. Les résultats obtenus montrent qu’un modèle non structuré, basé sur la cooccurrence des mots dans le corpus, permet d’obtenir, pour un terme donné, des termes reliés sur le plan paradigmatique (quasi-synonymes, antonymes, hyponymes). Nous discuterons la méthodologie d’évaluation et de sélection des paramètres, qui exploite des données extraites d’un dictionnaire spécialisé. Nous analyserons l’influence de paramètres tels que la forme et la taille de la fenêtre de contexte, la pondération des statistiques et l’utilisation d’une technique de réduction de dimension. Nous comparerons également les relations identifiées dans deux corpus, un portant sur le domaine de l’environnement et l’autre, sur le traitement automatique de la langue.

Mots clés : Sémantique distributionnelle, sémantique computationnelle, relations lexico-sémantiques, corpus spécialisé, terminologie.