talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Etude de différentes stratégies d'adaptation à un nouveau domaine en fouille d'opinion

Anne Garcia-Fernandez, Olivier Ferret

Résumé : Le travail présenté dans cet article se situe dans le contexte de la fouille d’opinion et se focalise sur la détermination de la polarité d’un texte en adoptant une approche par apprentissage. Dans ce cadre, son objet est d’étudier différentes stratégies d’adaptation à un nouveau domaine dans le cas de figure fréquent où des données d’entraînement n’existent que pour un ou plusieurs domaines différents du domaine cible. Cette étude montre en particulier que l’utilisation d’une forme d’auto-apprentissage par laquelle un classifieur annote un corpus du domaine cible et modifie son corpus d’entraînement en y incorporant les textes classés avec la plus grande confiance se révèle comme la stratégie la plus performante et la plus stable pour les différents domaines testés. Cette stratégie s’avère même supérieure dans un nombre significatif de cas à la méthode proposée par (Blitzer et al., 2007) sur les mêmes jeux de test tout en étant plus simple.

Abstract : The work presented in this article takes place in the field of opinion mining and aims more particularly at finding the polarity of a text by relying on machine learning methods. In this context, it focuses on studying various strategies for adapting a statistical classifier to a new domain when training data only exist for one or several other domains. This study shows more precisely that a self-training procedure consisting in enlarging the initial training corpus with texts from the target domain that were reliably classified by the classifier is the most successful and stable strategy for the tested domains. Moreover, this strategy gets better results in most cases than (Blitzer et al., 2007)’s method on the same evaluation corpus while it is more simple.

Mots clés : fouille d’opinion, adaptation à un nouveau domaine, auto-apprentissage

Keywords : opinion mining, domain adaptation, self-training