talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Alignements monolingues avec déplacements

Julien Bourdaillet, Jean-Gabriel Ganascia

Résumé : Ce travail présente une application d’alignement monolingue qui répond à une problématique posée par la critique génétique textuelle, une école d’études littéraires qui s’intéresse à la genèse textuelle en comparant les différentes versions d’une oeuvre. Ceci nécessite l’identification des déplacements, cependant, le problème devient ainsi NP-complet. Notre algorithme heuristique est basé sur la reconnaissance des homologies entre séquences de caractères. Nous présentons une validation expérimentale et montrons que notre logiciel obtient de bons résultats ; il permet notamment l’alignement de livres entiers.

Abstract : This paper presents a monolingual alignment application that addresses a problem which occurs in textual genetic criticism, a humanities discipline of literary studies which compares texts’ versions to understand texts’ genesis. It requires the move detection, but this characteristic makes the problem NP-complete. Our heuristic algorithm is based on pattern matching in character sequences. We present an experimental validation where we show that our application obtains good results ; in particular it enables whole book alignment.

Mots clés : alignement monolingue, distance d’édition avec déplacements, critique génétique textuelle

Keywords : monolingual alignment, edit distance with moves, textual genetic criticism