talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Détection des couples de termes translittérés à partir d'un corpus parallèle anglais-arabe

Wafa Neifar, Thierry Hamon, Pierre Zweigenbaum, Mariem Ellouze, Lamia Hadrich Belguith

Résumé : Nous présentons une méthode pour extraire des couples de termes médicaux translittérés de l’anglais en caractères arabes. Nous avons proposé un processus de construction des translittérations de termes anglais en arabe. Celui-ci s’appuie sur une étude en corpus pour la création d’une table de correspondances des caractères anglais en arabe mais aussi sur des règles de conversion qui tiennent compte de certaines particularités de la langue arabe comme l’agglutination et la non-voyellation. Nous avons évalué l’apport de l’utilisation de la translittération pour identifier des couples de termes anglaisarabe sur un corpus parallèle de textes médicaux. Les résultats montrent que parmi 137 couples de mots anglais-arabe extraits, 120 sont jugés corrects (soit 87,59%), dont 107 représentent des couples de termes médicaux (soit 89,16% des translittérations correctes et 78,10% des résultats).

Mots clés : Extraction terminologique bilingue, alignement de mots, translittération, corpus parallèle..