talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Relever des critères pour la distinction automatique entre les documents médicaux scientifiques et vulgarisés en russe et en japonais

Sonia Krivine, Masaru Tomimitsu, Natalia Grabar, Monique Slodzian

Résumé : Dans cet article, nous cherchons à affiner la notion de comparabilité des corpus. Nous étudions en particulier la distinction entre les documents scientifiques et vulgarisés dans le domaine médical. Nous supposons que cette distinction peut apporter des informations importantes, par exemple en recherche d’information. Nous supposons par là même que les documents, étant le reflet de leur contexte de production, fournissent des critères nécessaires à cette distinction. Nous étudions plusieurs critères linguistiques, typographiques, lexicaux et autres pour la caractérisation des documents médicaux scientifiques et vulgarisés. Les résultats présentés sont acquis sur les données en russe et en japonais. Certains des critères étudiés s’avèrent effectivement pertinents. Nous faisons également quelques réflexions et propositions quant à la distinction des catégories scientifique et vulgarisée et aux questionnements théoriques.

Abstract : In this paper, we aim to ripen the notion of corpora comparability. We study especially the distinction between scientific and popularized documents in the medical domain. We suppose that this distinction can give important informations, for instance in information retrieval. In the same time, we suppose that documents reflect the context of their production and provide features necessary for this distinction. We study and present several features, linguistic, typographic, lexical and other, for the characterization of medical documents as scientific or popularized. The results presented are acquired on data in Russian and Japanese. Some of analyzed features turn out to be relevant.We give then some remarks and suggestions as for the distinction of scientific and popularized documents and their theoretical issues.

Mots clés : recherche d’information translangue, corpus comparables, typologie de documents, catégorisation, document scientifique, document vulgarisé

Keywords : translingual information retrieval, comparable corpora, document typology, categorisation, scientific document, popularized document