talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Identification des indicateurs linguistiques de la subjectivité les plus efficaces pour la classification d'articles de presse en français.

Louis Escouflaire

Résumé : Les articles de presse peuvent être répartis en deux genres principaux : les genres de l’information et les genres de l’opinion. La classification automatique d’articles dans ces deux genres est une tâche qui peut être effectuée à partir de traits et mesures linguistiques également utilisées pour l’analyse de la subjectivité. Dans cet article, nous évaluons la pertinence de 30 mesures issues de travaux antérieurs pour la classification d’articles d’information et d’opinion en français. A l’aide de deux modèles de classification différents et à partir d’un échantillon de 13 400 articles publiés sur le site web de la Radio-Télévision Belge Francophone (RTBF), nous avons identifié 18 mesures morphosyntaxiques, lexicosémantiques et stylométriques efficaces pour distinguer les articles plutôt factuels des articles subjectifs.

Mots clés : Analyse de subjectivité, classification automatique de textes, journalism studies, linguistique de corpus.