talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction de lexiques bilingues à partir de corpus comparables spécialisés à travers une langue pivot

Alexis Linard, Emmanuel Morin, Béatrice Daille

Résumé : L’extraction de lexiques bilingues à partir de corpus comparables se réalise traditionnellement en s’appuyant sur deux langues. Des travaux précédents en extraction de lexiques bilingues à partir de corpus parallèles ont démontré que l’utilisation de plus de deux langues peut être utile pour améliorer la qualité des alignements extraits. Nos travaux montrent qu’il est possible d’utiliser la même stratégie pour des corpus comparables. Nous avons défini deux méthodes originales impliquant des langues pivots et nous les avons évaluées sur quatre langues et deux langues pivots en particulier. Nos expérimentations ont montré que lorsque l’alignement entre la langue source et la langue pivot est de bonne qualité, l’extraction du lexique en langue cible s’en trouve améliorée.

Mots clés : Corpus comparables, lexiques bilingues, domaine spécialisé, langue pivot.