talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Feature engineering for tweet polarity classification in the 2015 DEFT challenge

François Morlane-Hondère, Eva D'hondt

Résumé : Dans cet article, nous présentons notre participation à la tâche 1 du Défi Fouille de Textes (DEFT) 2015. Cette dernière consiste à identifier la polarité de tweets en français. Notre système de classification s'appuie sur des traits de nature variée tels la présence des mots du tweet dans les lexiques, leurs propriétés typographiques, la façon dont sont utilisés les éléments de la syntaxe de Twitter (hashtags, mentions) ou encore le fait qu'un tweet ait été généré automatiquement ou produit par un humain. Nos deux soumissions ont respectivment obtenu une macro-précision de 0.687 and 0.688. Elles se situent au-dessus de la moyenne de l'ensemble des participants (0.582) mais légèrement en dessous de la médiane (0.693).

Abstract : In this paper we present our contribution to the first task of the 2015 DEFT challenge which dealt with polarity classification of French tweets. We explored the impact of a large number of different types of features, such as lexicon-based features, typography-based features, Twitter-specific features and features that incorporate external (world) knowledge. We submitted two runs and achieved macro-averaged precision scores of 0.687 and 0.688 respectively, which is above the average of all submitted runs (0.582) and slightly below the median (0.693).

Mots clés : Détection de polarité, Analyse de sentiments, DEFT, Twitter Réseaux sociaux

Keywords : Polarity classification, Sentiment analysis, DEFT, Twitter, Social media