talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Réduction de la dispersion des données par généralisation des contextes distributionnels : application aux textes de spécialité

Amandine Périnet, Thierry Hamon

Résumé : Les modèles d’espace vectoriels mettant en oeuvre l’analyse distributionnelle s’appuient sur la redondance d’informations se trouvant dans le contexte des mots à associer. Cependant, ces modèles souffrent du nombre de dimensions considérable et de la dispersion des données dans la matrice des vecteurs de contexte. Il s’agit d’un enjeu majeur sur les corpus de spécialité pour lesquels la taille est beaucoup plus petite et les informations contextuelles moins redondantes. Nous nous intéressons au problème de la limitation de la dispersion des données sur des corpus de spécialité et proposons une méthode permettant de densifier la matrice en généralisant les contextes distributionnels. L’évaluation de la méthode sur un corpus médical en français montre qu’avec une petite fenêtre graphique et l’indice de Jaccard, la généralisation des contextes avec des relations fournies par des patrons lexico-syntaxiques permet d’améliorer les résultats, alors qu’avec une large fenêtre et le cosinus, il est préférable de généraliser avec des relations obtenues par inclusion lexicale.

Abstract : Vector space models implement the distributional hypothesis relying on the repetition of information occurring in the contexts of words to associate. However, these models suffer from a high number of dimensions and data sparseness in the matrix of contextual vectors. This is a major issue with specialized corpora that are of much smaller size and with much lower context frequencies.We tackle the problem of data sparseness on specialized texts and we propose a method that allows to make the matrix denser, by generalizing of distributional contexts. The evaluation of the method is performed on a French medical corpus, and shows that with a small graphical window and the Jaccard Index, the context generalization with lexico-syntactic patterns improves the results, while with a large window and the cosine measure, it is better to generalize with lexical inclusion.

Mots clés : Analyse distributionnelle, textes de spécialité, hyperonymie, dispersion des données, modèle d’espace vectoriel, méthode hybride

Keywords : Distributional analysis, specialized texts, hypernymy, data sparseness, Vector Space Model, hybrid method