talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Construction de corpus multilingues : état de l’art

Manuela Yapomo

Résumé : Les corpus multilingues sont extensivement exploités dans plusieurs branches du traitement automatique des langues. Cet article présente une vue d’ensemble des travaux en construction automatique de ces corpus. Nous traitons ce sujet en donnant premièrement un aperçu de différentes perceptions de la comparabilité. Nous examinons ensuite les principales approches de calcul de similarité, de construction et d’évaluation développées dans le domaine. Nous observons que Le calcul de la similarité textuelle se fait généralement sur la base de statistiques de corpus, de la structure de ressources ontologiques ou de la combinaison de ces deux approches. Dans un cadre multilingue avec l’utilisation d’un dictionnaire multilingue ou d’un traducteur automatique, de nombreux problèmes apparaissent. L’exploitation d’une ressource ontologique multilingue semble être une solution. En classification, la problématique de l’ajout de documents à la base initiale sans affecter la qualité des clusters demeure ouverte.

Abstract : Multilingual corpora are extensively exploited in several branches of natural language processing. This paper presents an overview of works in the automatic construction of such corpora. We address this topic by first providing an overview of different perceptions of comparability. We then examine the main approaches to similarity computation, construction and evaluation developed in the field. We notice that the measurement of the textual similarity is usually based on corpus statistics or the structure of ontological resources or on a combination of these two approaches. In a multilingual framework, with the use of a multilingual dictionary or a machine translator, many problems arise. The exploitation of a multilingual ontological ressource seems to be a worthy option. In clustering, the problem of adding documents to the initial base without affecting the quality of clusters remains open.

Mots clés : corpus multilingues, comparabilité, similarité textuelle translingue, classification

Keywords : multilingual corpora, comparability, crosslingual textual similarity, classification