talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Attribution d'Auteur : approche multilingue fondée sur les répétitions maximales

Romain Brixtel, Charlotte Lecluze, Gaël Lejeune

Résumé : Cet article s'attaque à la tâche d'Attribution d'Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales. Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes. A contrario, les répétitions maximales représentent l'ensemble des répétitions de ce texte de manière condensée. Nos expériences montrent que la redondance des n-grammes contribue à l'efficacité des techniques d'Attribution d'Auteur exploitant des sous-chaînes de caractères. Ce constat posé, nous proposons une fonction de pondération sur les traits donnés en entrée aux classifieurs, en introduisant les répétitions maximales du nème ordre (c'est-à-dire des répétitions maximales détectées dans un ensemble de répétitions maximales). Les résultats expérimentaux montrent de meilleures performances avec des répétitions maximales, avec moins de données que pour les approches fondées sur les n-grammes.

Abstract : This article tackles the Authorship Attribution task according to the language independence issue. We propose an alternative of variable length character n-gram features in supervised methods : maximal repeats in strings. When character n-grams are by essence redundant, maximal repeats are a condensed way to represent any substring of a corpus. Our experiments show that the redundant aspect of character n-grams contributes to the efficiency of character-based Authorship Attribution techniques. Therefore, we introduce a new way to weight features in vector based classifier by introducing n-th order maximal repeats (maximal repeats detected in a set of maximal repeats). The experimental results show higher performance with maximal repeats, with less data than n-grams based approach.

Mots clés : attribution d'auteur, multilinguisme, classification, chaînes de caractères, répétitions maximales

Keywords : authorship attribution, multilinguism, classification, character substrings, maximal repeats