talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Identification des Expressions Polylexicales dans les Tweets

Nicolas Zampieri, Carlos Ramisch, Irina Illina, Dominique Fohr

Résumé : L’identification des expressions polylexicales (EP) dans les tweets est une tâche difficile en raison de la nature linguistique complexe des EP combinée à l’utilisation d’un langage non standard. Dans cet article, nous présentons cette tâche d’identification sur des données anglaises de Twitter. Nous comparons les performances de deux systèmes : un utilisant un dictionnaire et un autre des réseaux de neurones. Nous évaluons expérimentalement sept configurations d’un système état de l’art fondé sur des réseaux neuronaux récurrents utilisant des embeddings contextuels générés par BERT. Le système fondé sur les réseaux neuronaux surpasse l’approche dictionnaire, collecté automatiquement à partir des EP dans des corpus, grâce à son pouvoir de généralisation supérieur.

Mots clés : expression polylexicales, identification, réseau social.