Catégorisation automatique d'adjectifs d'opinion à partir d'une ressource linguistique générique
Baptiste Chardon
Résumé : Cet article décrit un processus d’annotation manuelle de textes d’opinion, basé sur un schéma fin d'annotation indépendant de la langue et du corpus. Ensuite, à partir d'une partie de ce schéma, une méthode de construction automatique d'un lexique d'opinion à partir d'un analyseur syntaxique et d'une ressource linguistique est décrite. Cette méthode consiste à construire un arbre de décision basé sur les classes de concepts de la ressource utilisée. Dans un premier temps, nous avons étudié la couverture du lexique d'opinion obtenu par comparaison avec l’annotation manuelle effectuée sur un premier corpus de critiques de restaurants. La généricité de ce lexique a été mesurée en le comparant avec un second lexique, généré à partir d'un corpus de commentaires de films. Dans un second temps, nous avons évalué l'utilisabilité du lexique au travers d'une tâche extrinsèque, la reconnaissance de la polarité de commentaires d'internautes.
Abstract : This paper introduces a manual annotation process of opinion texts, based on a fine-featured annotation scheme, independent of language and corpus. Then, from a part of this scheme, a method to build automatically an opinion lexicon from a syntactic analyser and a linguistic resource is described. This method consists in building a decision tree from the classes of the resource. The coverage of the lexicon has been determined by comparing it to the gold annotation of a restaurants review corpus. Its genericity was determined by comparing it to another lexicon generated from a different domain corpus (movie reviews). Eventually, the usefulness of the lexicon has been measured with an extrinsic task, the recognition of the polarity of reviews.
Mots clés : Analyse d'opinion, Extension de lexique, Annotation d'opinions
Keywords : Opinion mining, Lexicon extension, Opinion annotation