talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

FrenchSentiClass : un Système Automatisé pour la Classification de Sentiments en Français

Mike Donald Tapi Nzali, Amine Abdaoui, Jérôme Azé, Sandra Bringay, Christian Lavergne, Caroline Mollevi, Pascal Poncelet

Résumé : Ce papier décrit le système FrenchSentiClass que nous avons utilisé pour les tâches du défi de fouilles de texte (DEFT 2017). Cette treizième édition du défi a porté sur l’analyse de l’opinion et du langage figuratif dans des tweets rédigés en Français. Le défi propose trois tâches : (i) la première concerne la classification des tweets non figuratifs selon leur polarité ; (ii) la deuxième concerne l’identification du langage figuratif et (iii) la troisième concerne la classification des tweets figuratifs et non figuratifs selon leur polarité. Nous avons proposé un système automatisé basé sur les Machines à Vecteurs de Support (SVM). Le système choisit automatiquement à chaque niveau les meilleurs prétraitements, descripteurs syntaxiques et lexiques de sentiments en validation croisée sur l’ensemble d’apprentissage. Il effectue aussi une évaluation de l’apport de la sélection d’attributs et un tuning du paramètre de complexité du modèle SVM. Par conséquent, ce système permet de réduire considérablement le temps d’exploration des données et du choix de la meilleur représentation de descripteurs.

Mots clés : Analyse d’opinions, détection de polarité, langage figuratif.