Attribution d’auteur au moyen de modèles de langue et de modèles stylométriques
Audrey Laroche
Résumé : Dans une tâche consistant à trouver l’auteur (parmi 53) de chacun de 114 textes, nous analysons la performance de modèles de langue et de modèles stylométriques sous les angles du rappel et du nombre de paramètres. Le modèle de mots bigramme à lissage de Kneser-Ney modifié interpolé est le plus performant (75 % de bonnes réponses au premier rang). Parmi les modèles stylométriques, une combinaison de 7 paramètres liés aux parties du discours produit les meilleurs résultats (rappel de 25 % au premier rang). Dans les deux catégories de modèles, le rappel maximal n’est pas atteint lorsque le nombre de paramètres est le plus élevé.
Abstract : In a task consisting of attributing the proper author (among 53) of each of 114 texts, we analyze the performance of language models and stylometric models from the point of view of recall and the number of parameters. The best performance is obtained with a bigram word model using interpolated modified Kneser-Ney smoothing (first-rank recall of 75 %). The best of the stylometric models, which combines 7 parameters characterizing the proportion of the different parts of speech in a text, has a firstrank recall of 25 % only. In both types of models, the maximal recall is not reached when the number of parameters is highest.
Mots clés : Attribution d’auteur, modèle de langue, stylométrie, n-grammes, vecteurs de traits
Keywords : Authorship attribution, language model, stylometry, n-grams, feature vectors