talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Application d’algorithmes de classification automatique pour la détection des contenus racistes sur l’Internet

Romain Vinot, Natalia Grabar, Mathieu Valette

Résumé : Le filtrage de contenus illicites sur Internet est une problématique difficile qui est actuellement résolue par des approches à base de listes noires et de mots-clés. Les systèmes de classification textuelle par apprentissage automatique nécessitant peu d’interventions humaines, elles peuvent avantageusement remplacer ou compléter les méthodes précédentes pour faciliter les mises à jour. Ces techniques, traditionnellement utilisées avec des catégories définies par leur sujet (économie ou sport par exemple), sont fondées sur la présence ou l’absence de mots. Nous présentons une évaluation de ces techniques pour le filtrage de contenus racistes. Contrairement aux cas traditionnels, les documents ne doivent pas être catégorisés suivant leur sujet mais suivant le point de vue énoncé (raciste ou antiraciste). Nos résultats montrent que les classifieurs, essentiellement lexicaux, sont néanmoins bien adaptées : plus de 90% des documents sont correctement classés, voir même 99% si l’on accepte une classe de rejet (avec 20% d’exemples non classés).

Abstract : Filtering of illicit contents on the Internet is a difficult issue which is currently solved with black lists and keywords. Machine-learning text categorization techniques needing little human intervention can replace or complete the previous methods to keep the filtering up-to-date easily. These echniques, usually used with topic classes (economy or sport for instance), are based on the presence or absence of words.We present an evaluation of these techniques for racism filtering. Unlike the traditional systems, documents are not categorized according to their main topic but according to the expressed point of view (racist or anti-racist). Our results show that these lexical techniques are well adapted : more than 90% of the documents are correctly classified, or even 99% if a rejection class is accepted (20% of the examples are not classified).

Mots clés : Classification automatique, Rocchio, kPPV, SVM, Internet, filtrage de l’information

Keywords : Text classification, Rocchio, kNN, SVM, Internet, information filtering