talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Proposition méthodologique pour la détection automatique de Community Manager. Étude multilingue sur un corpus relatif à la Junk Food

Johan Ferguth, Aurélie Jouannet, Asma Zamiti, Yunhe Wu, Jia Li, Antonina Bondarenko, Damien Nouvel, Mathieu Valette

Résumé : Dans cet article, nous présentons une méthodologie pour l'identification de messages suspectés d'être produits par des Community Managers à des fins commerciales déguisées dans des documents du Web 2.0. Le champ d'application est la malbouffe (junkfood) et le corpus est multilingue (anglais, chinois, français). Nous exposons dans un premier temps la stratégie de constitution et d'annotation de nos corpus, en explicitant notamment notre guide d'annotation, puis nous développons la méthode adoptée, basée sur la combinaison d'une analyse textométrique et d'un apprentissage supervisé.

Abstract : This article describes the methodology for identifying a certain kind of speech in internet forums. The detection of the speech of a Community Manager combines recent issues in the domain of Natural Language Processing, including opinion mining and sentiment analysis, with another more abstract problem. Going beyond detecting the polarity of a message, this project targets the underlying intentions and identity of the author of the message on the forum.

Mots clés : Community Management, Textométrie, Multilinguisme, Fouille de texte

Keywords : Community Management, Textometry, Multilingualism, Data Mining