talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Inférence de règles de réécriture pour la traduction de termes biomédicaux

Vincent Claveau

Résumé : Dans le domaine biomédical, le caractère multilingue de l’accès à l’information est un problème d’importance. Dans cet article nous présentons une technique originale permettant de traduire des termes simples du domaine biomédical de et vers de nombreuses langues. Cette technique entièrement automatique repose sur l’apprentissage de règles de réécriture à partir d’exemples et l’utilisation de modèles de langues. Les évaluations présentées sont menées sur différentes paires de langues (français-anglais, espagnol-portugais, tchèque-anglais, russe-anglais...). Elles montrent que cette approche est très efficace et offre des performances variables selon les langues mais très bonnes dans l’ensemble et nettement supérieures à celles disponibles dans l’état de l’art. Les taux de précision de traductions s’étagent ainsi de 57.5% pour la paire russe-anglais jusqu’à 85% pour la paire espagnol-portugais et la paire françaisanglais.

Abstract : In the biomedical domain, offering a multilingual access to specialized information is a major issue. In this paper, we present an original approach to translate simple biomedical terms between several languages. This fully automatic approach is based on a machine learning technique inferring rewriting rules and on language models. The experiments that are presented are done onn several language pairs (French-English, Spanish-Portuguese, Czech-English, Russian-English...). They demonstrate the efficiency of our approach by yielding translation performances that vary according to the languages but are always very good and better than those of state-of-art techniques. Indeed, the translation precision rates go from 57.5% for translation from Russian to English up to 85% for Spanish-Portuguese and French-English language pairs.

Mots clés : traduction artificielle, terminologie biomédicale, apprentissage artificiel, modèles de langue

Keywords : machine translation, biomedical terminology, machine learning, language models