Sélection de critères pour le filtrage automatique de messages

Omar Nouali

Résumé : La plupart des systèmes de filtrage du courrier électronique existants enregistrent des lacunes ou faiblesses sur lefficacité du filtrage. Certains systèmes sont basés seulement sur le traitement de la partie structurée (un ensemble de règles sur lentête du message), et dautres sont basés sur un balayage superficiel de la partie texte du message (occurrence dun ensemble de mots clés décrivant les intérêts de lutilisateur). Cet article propose une double amélioration de ces systèmes. Dune part, nous proposons un ensemble de critères automatisables et susceptibles dinfluer sur le processus de filtrage. Ces critères sont des indices qui portent généralement sur la structure et le contenu des messages. Dautre part, nous utilisons une méthode dapprentissage automatique permettant au système dapprendre à partir de données et de sadapter à la nature des mails dans le temps. Dans cet article, nous nous intéressons à un type de messages bien particulier, qui continue à polluer nos boîtes emails de façon croissante : les messages indésirables, appelés spam. Nous présentons à la fin les résultats dune expérience dévaluation.

Abstract : Most of existing filtering messages systems exhibit weaknesses in term of efficiency. In fact, there are systems that use only message header information and others use a superficial processing of message body. In this paper, we try to improve the filtering processes efficiency. First, we introduce a set of criteria which are cues related to the message structure and content. Second, we use a machine learning method allowing the system to learn from data and to adapt to the email nature. We are interested in a special type of messages that continuously poluate our email boxes: spam email. At the end, to measure the approach performances, we illustrate and discuss the results obtained by experimental evaluations.

Mots clés : Filtrage dinformation, e-mail, réseaux de neurones, apprentissage, spam

Keywords : Information filtering, e-mail, neural network, learning, e-mail filtering, spam

Téléchargement :
[article]
[bibtex]

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Sélection de critères pour le filtrage automatique de messages

Omar Nouali