talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Appariement bilingue de mots par propagation syntaxique à partir de corpus français/anglais alignés

Sylwia Ozdowska

Résumé : Nous présentons une méthode d’appariement de mots, à partir de corpus français/anglais alignés, qui s’appuie sur l’analyse syntaxique en dépendance des phrases. Tout d’abord, les mots sont appariés à un niveau global grâce au calcul des fréquences de cooccurrence dans des phrases alignées. Ces mots constituent les couples amorces qui servent de point de départ à la propagation des liens d’appariement à l’aide des différentes relations de dépendance identifiées par un analyseur syntaxique dans chacune des deux langues. Pour le moment, cette méthode dite d’appariement local traite majoritairement des cas de parallélisme, c’est-à-dire des cas où les relations syntaxiques sont identiques dans les deux langues et les mots appariés de même catégorie. Elle offre un taux de réussite de 95,4% toutes relations confondues.

Abstract : We present a word alignment procedure based on a syntactic dependency analysis of French/English parallel corpora. First, words are associated at a global level by comparing their co-occurrences in aligned sentences with respect to their overall occurrences in order to derive a set of anchor words. The anchor words are the starting point of the propagation process of alignment links using the different syntactic relations identified by a parser for each language. This process is called the local alignment. For the moment, it is performed basically when the syntactic relations are identical in both languages and the words aligned have the same part of speech. This method achieves a precision rate of 95,4% all syntactic relations taken into account.

Mots clés : appariement syntaxique de mots, corpus parallèle, traitement automatique des langues naturelles

Keywords : syntactic word alignment, parallel corpora, natural language processing