talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Analyse de positionnement multidimensionnel sur le corpus spécialisé TALN

Ann Bertels, Dirk Speelman

Résumé : Cet article présente la méthodologie et les résultats d’une analyse sémantique distributionnelle, développée sur un corpus technique pour l’exploration visuelle de la proximité sémantique entre les cooccurrents d’un mot-pôle. Ici, nous utilisons cette approche sur un corpus relevant d’un autre domaine spécialisé, pour la mettre à l’épreuve et pour comparer les résultats à d’autres approches. A l’aide d’une analyse statistique de positionnement multidimensionnel (Multidimensional Scaling ou MDS), nous procédons au regroupement des cooccurrents de premier ordre de huit mots-pôles sélectionnés, en fonction des cooccurrents de deuxième et troisième ordre partagés. La visualisation par mot-pôle permet de cerner des groupes de cooccurrents sémantiquement similaires. Ces analyses exploratoires sur le corpus TALN visent non seulement à vérifier ce que nous apprend notre approche sur les nouvelles données, mais également à découvrir ce que ces données nous apprennent sur notre approche, dans le souci de la mettre au point.

Mots clés : Analyse de cooccurrences, cooccurrents de deuxième et troisième ordre, positionnement multidimensionnel, regroupement, exploration sémantique visuelle.