Critères pour l’annotation active de microblogs
Patrick Paroubek
Résumé : Depuis longtemps on sait optimiser l’annotation manuelle de corpus en sélectionnant les textes à annoter selon des critères rationnels plutôt qu’aléatoires, grace aux travaux issus de l’apprentissage automatique, ceci par le biais des méthodes développées par l’apprentissage actif (« active learning »), un cas particulier de l’apprentissage semi-supervisé. Nous présentons ici une étude sur l’application de ces méthodes, dans le cas des contenus textuels de microblogs (Twitter) en français, annotés dans la campagne d’évaluation DEFT2015 pour des tâches d’annotation en opinions, sentiments et émotions à granularité variable. Nous comparons des critères ne supposant pas une pré-annotation, comme par exemple l’entropie de Shannon, à des critères reposant sur la quantification des divergences obervées dans les pré-annotation et étudions l’impact de la quantité de données annotées déjà disponibles sur la stratégie de sélection, en prenant en compte la spécificité des contenus issus de microblogs.
Mots clés : apprentissage actif, annotation, microblogs, entropie de Shannon, evaluation, ROVER, Twitter.