talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Sélection de critères pour le filtrage automatique de messages

Omar Nouali

Résumé : La plupart des systèmes de filtrage du courrier électronique existants enregistrent des lacunes ou faiblesses sur l’efficacité du filtrage. Certains systèmes sont basés seulement sur le traitement de la partie structurée (un ensemble de règles sur l’entête du message), et d’autres sont basés sur un balayage superficiel de la partie texte du message (occurrence d’un ensemble de mots clés décrivant les intérêts de l’utilisateur). Cet article propose une double amélioration de ces systèmes. D’une part, nous proposons un ensemble de critères automatisables et susceptibles d’influer sur le processus de filtrage. Ces critères sont des indices qui portent généralement sur la structure et le contenu des messages. D’autre part, nous utilisons une méthode d’apprentissage automatique permettant au système d’apprendre à partir de données et de s’adapter à la nature des mails dans le temps. Dans cet article, nous nous intéressons à un type de messages bien particulier, qui continue à polluer nos boîtes emails de façon croissante : les messages indésirables, appelés spam. Nous présentons à la fin les résultats d’une expérience d’évaluation.

Abstract : Most of existing filtering messages systems exhibit weaknesses in term of efficiency. In fact, there are systems that use only message header information and others use a superficial processing of message body. In this paper, we try to improve the filtering processes efficiency. First, we introduce a set of criteria which are cues related to the message structure and content. Second, we use a machine learning method allowing the system to learn from data and to adapt to the email nature. We are interested in a special type of messages that continuously poluate our email boxes: spam email. At the end, to measure the approach performances, we illustrate and discuss the results obtained by experimental evaluations.

Mots clés : Filtrage d’information, e-mail, réseaux de neurones, apprentissage, spam

Keywords : Information filtering, e-mail, neural network, learning, e-mail filtering, spam