talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Similarités induites par mesure de comparabilité : signification et utilité pour le clustering et l’alignement de textes comparables

Pierre-Francois Marteau, Gildas Ménier

Résumé : En présence de corpus comparables bilingues, nous sommes confrontés à des données qu’il est naturel de plonger dans deux espaces de représentation linguistique distincts, chacun éventuellement muni d’une mesure quantifiable de similarité (ou d’une distance). Dès lors que ces données bilingues sont comparables au sens d’une mesure de comparabilité également calculable (Li et Gaussier, 2010), nous pouvons établir une connexion entre ces deux espaces de représentation linguistique en exploitant une carte d’association pondérée ("mapping") appréhendée sous la forme d’un graphe bi-directionnel dit de comparabilité. Nous abordons dans cet article les conséquences conceptuelles et pratique d’une telle connexion similarité-comparabilité en développant un algorithme (Hit-ComSim) basé sur sur le principe de similarité induite par la topologie du graphe de comparabilité. Nous essayons de qualifier qualitativement l’intérêt de cet algorithme en considérant quelques expériences préliminaires de clustering de documents comparables bilingues (Français/Anglais) collectés sur des flux RSS.

Abstract : In the presence of bilingual comparable corpora it is natural to embed the data in two distinct linguistic representation spaces in which a "computational" notion of similarity is potentially defined. As far as these bilingual data are comparable in the sense of a measure of comparability also computable (Li et Gaussier, 2010), we can establish a connection between these two areas of linguistic representation by exploiting a weighted mapping that can be represented in the form of a weighted bidirectional graph of comparability. We study in this paper the conceptual and practical consequences of such a similarity-comparability connection, while developing an algorithm (Hit-ComSim) based on the concept of similarities induced by the topology of the graph of comparability. We try to evaluate the benefit of this algorithm considering some preliminary categorization or clustering tasks of bilingual (English/French) documents collected from RSS feeds.

Mots clés : Graphe de comparabilité, Similarités induites, Documents comparables, Clustering

Keywords : Comparability graph, Induced similarities, Comparable documents, Clustering