talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Détection de zones parallèles à l’intérieur de multi-documents pour l’alignement multilingue

Charlotte Lecluze, Romain Brixtel, Loïs Rigouste, Emmanuel Giguet, Régis Clouard, Gaël Lejeune, Patrick Constant

Résumé : Cet article aborde une question centrale de l’alignement automatique, celle du diagnostic de parallélisme des documents à aligner. Les recherches en la matière se sont jusqu’alors concentrées sur l’analyse de documents parallèles par nature : corpus de textes réglementaires, documents techniques ou phrases isolées. Les phénomènes d’inversions et de suppressions/ajouts pouvant exister entre les différentes versions d’un document sont ainsi souvent ignorées. Nous proposons donc une méthode pour diagnostiquer en contexte des zones parallèles à l’intérieur des documents. Cette méthode permet la détection d’inversions ou de suppressions entre les documents à aligner. Elle repose sur l’affranchissement de la notion de mot et de phrase, ainsi que sur la prise en compte de la Mise en Forme Matérielle du texte (MFM). Sa mise en oeuvre est basée sur des similitudes de répartition de chaînes de caractères répétées dans les différents documents. Ces répartitions sont représentées sous forme de matrices et l’identification des zones parallèles est effectuée à l’aide de méthodes de traitement d’image.

Abstract : This article broaches a central issue of the automatic alignment : diagnosing the parallelism of documents. Previous research was concentrated on the analysis of documents which are parallel by nature such as corpus of regulations, technical documents or simple sentences. Inversions and deletions/additions phenomena that may exist between different versions of a document has often been overlooked. To the contrary, we propose a method to diagnose in context the parallel areas allowing the detection of deletions or inversions between documents to align. This original method is based on the freeing from word and sentence as well as the consideration of the text formatting. The implementation is based on the detection of repeated character strings and the identification of parallel segments by image processing.

Mots clés : détection et alignement de zones, appariement de N-grammes de caractères, corpus de multidocuments

Keywords : area detection and alignment, character N-grams matching, multidocuments corpora