Identification des cognats et alignement bi-textuel : une étude empirique
Olivier Kraif
Résumé : Nous nous intéressons ici aux méthodes d’alignement automatique destinées à produire des corpus bi-textuels, utiles au traducteur, au terminologue ou au linguistique. Certaines techniques ont obtenu des résultats probants en s’appuyant sur la détermination empirique des « cognats » (de l’anglais « cognate »), des mots qui se traduisent l’un par l’autre et qui présentent une ressemblance graphique. Or les cognats sont généralement captés au moyen d’une approximation abrupte, de nature opératoire : on considère tous les 4-grammes (mots possédants 4 lettres en commun) comme cognats potentiels. Aucune étude n’a été faite, à notre connaissance, à propos de la validité de cette approximation. Afin d’en démontrer les possibilités et les limites, nous avons cherché à déterminer empiriquement la qualité de cette simplification, en termes de bruit et de silence (ou de manière complémentaire, de précision et de rappel). Nous avons ensuite essayé de développer un filtrage plus efficace, basé sur l’utilisation des sous-chaînes maximales. Enfin, nous avons corrélé les améliorations du filtrage avec les résultats de l’alignement, en nous basant sur une méthode générale développée par nous : nous avons pu constater un net progrès en terme de rappel et de précision de l’alignement.