talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

CANÉPHORE : un corpus français pour la fouille d'opinion ciblée

Joseph Lark, Emmanuel Morin, Sebastian Peña Saldarriaga

Résumé : La fouille d'opinion ciblée (aspect-based sentiment analysis) fait l'objet ces dernières années d'un intérêt particulier, visible dans les sujets des récentes campagnes d'évaluation comme SemEval 2014 et 2015 ou bien DEFT 2015. Cependant les corpus annotés et publiquement disponibles permettant l'évaluation de cette tâche sont rares. Dans ce travail nous présentons en premier lieu un corpus français librement accessible de 10 000 tweets manuellement annotés. Nous accompagnons ce corpus de résultats de référence pour l'extraction de marqueurs d'opinion non supervisée. Nous présentons ensuite une méthode améliorant les résultats de cette extraction, en suivant une approche semi-supervisée.

Abstract : Aspect-based sentiment analysis knows a renewed interest these last years, according to recent opinion mining evaluation series (SemEval 2014 and 2015, DEFT 2015). However, publicly available evaluation resources are scarse. This work firstly introduces a publicly available annotated French Twitter corpus for sentiment analysis evaluation on aspect, subject and opinion word levels (10 000 documents). We present baseline results on this corpus for the task of opinion word extraction and then show that these results can be improved with simple semi-supervised methods.

Mots clés : Fouille d'opinion, web social, corpus annoté, extraction d'information semi-supervisée

Keywords : Opinion mining, social web, annotated corpus, semi-supervised information extraction