talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Construction et exploitation d’un corpus français pour l’analyse de sentiment

Marc Vincent, Grégoire Winterstein

Résumé : Ce travail présente un corpus en français dédié à l’analyse de sentiment. Nous y décrivons la construction et l’organisation du corpus. Nous présentons ensuite les résultats de l’application de techniques d’apprentissage automatique pour la tâche de classification d’opinion (positive ou négative) véhiculée par un texte. Deux techniques sont utilisées : la régression logistique et la classification basée sur des Support Vector Machines (SVM). Nous mentionnons également l’intérêt d’appliquer une sélection de variables avant la classification (par régularisation par elastic net).

Abstract : This work introduces a French corpus for sentiment analysis. We describe the construction and organization of the corpus. We then apply machine learning techniques to automatically predict whether a text is positive or negative (the opinion classification task). Two techniques are used : logistic regression and classification based on Support Vector Machines (SVM). Finally, we briefly evaluate the merits of applying feature selection algorithms to our models (via elastic net regularization).

Mots clés : Analyse de sentiments, Corpus, Classification, Apprentissage automatique, Sélection de variable

Keywords : Sentiment Analysis, Corpus, Opinion Mining, Classification, Machine Learning, Variable Selection