Extraction automatique de motifs syntaxiques
Jean-Gabriel Ganascia
Résumé : Cet article présente un nouvel algorithme de détection de motifs syntaxiques récurrents dans les textes écrits en langage naturel. Il décrit d’abord l’algorithme d’extraction fondé sur un modèle d’édition généralisé à des arbres stratifiés ordonnés (ASO). Il décrit ensuite les expérimentations qui valident l’approche préconisée sur des textes de la littérature française classique des XVIIIe et XIXe siècle. Une sous-partie est consacrée à l’évaluation empirique de la complexité algorithmique. La dernière sous-partie donnera quelques exemples de motifs récurrents typiques d’un auteur du XVIIIe siècle, Madame de Lafayette.
Abstract : This paper presents a new algorithm designed to detect recurrent syntactical patterns in natural language texts. It first describes the pattern extraction algorithm which is based on an edit model generalized to Stratified Ordered Trees (SOT). Then it focuses on experiments with french classical literature of the 18th and 19th century. One section is dedicated to the efficiency evaluation. The last provides some examples of such recurrent patterns that are typical of an 18th century author, Madame de Lafayette.
Mots clés : Extraction de motifs, arbres stratifiés ordonnés, distances d'édition, séquences
Keywords : Pattern extraction, stratified ordered trees, edit distance, sequences