talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction automatique de correspondances lexicales: évaluation d'indices et d'algorithmes

Olivier Kraif

Résumé : Les bi-textes sont des corpus bilingues parallèles, généralement segmentés et alignés au niveau des phrases. Une des applications les plus directes de ces corpus consiste à en extraire automatiquement des correspondances lexicales, fournissant une information utile aux traducteurs, aux lexicographes comme aux terminologues. Comme pour l’alignement, des méthodes statistiques ont donné de bons résultats dans ce domaine. Nous pensons qu’une exploitation judicieuse d’indices statistiques adaptés et d’algorithmes de conception simple permet d’obtenir des correspondances fiables. Après avoir présenté les indices classiques, auxquels nous essayons d’apporter des améliorations, nous proposons dans cette article une étude empirique destinée à en montrer les potentialités.

Mots clés : extraction, extraction automatique de correspondances lexicales, alignement, alignement lexical, lexicographie, relation de traduction