talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Participation de l’IRISA à DeFT2017 : systèmes de classification de complexité croissante

Vincent Claveau, Christian Raymond

Résumé : Cet article décrit la participation de l’équipe LinkMedia de l’IRISA à DeFT 2017. Notre équipe a participé aux 3 tâches : classification des tweets non figuratifs selon leur polarité (tâche 1), l’identification du langage figuratif (tâche 2) et la classification des tweets figuratifs et non figuratifs selon leur polarité (tâche 3). Pour ces trois tâches, nous adoptons une démarche d’apprentissage artificiel. Plus précisément, nous explorons l’intérêt de trois méthodes de complexité croissante : i) les k plus proches voisins issues de la recherche d’information, ii) le boosting d’arbres de décision, et iii) les réseaux neuronaux récurrents. Nos approches n’exploitent aucune ressource externe riche (lexiques, corpus annotés) et sont uniquement fondées sur le contenu textuel des tweets (et d’autres tweets pour la dernière approche). Cela nous permet d’évaluer l’intérêt de chacune de ces méthodes, mais aussi des représentations qu’elles exploitent, à savoir les sacs-de-mots pour la première, les n-grams pour la deuxième et le plongement de mots (word embedding) pour les réseaux neuronaux.

Mots clés : K-plus-proches voisins, boosting, arbres de décision, réseau de neurones récurrents, plongement de mots.