TWEETANEUSE : Fouille de motifs en caractères et plongement lexical à l’assaut du DEFT 2017
Davide Buscaldi, Aude Grezka, Gaël Lejeune
Résumé : Dans cet article, nous présentons les trois méthodes développées pour la participation de l’équipe T WEETANEUSE au Défi Fouille de Textes (DEFT) 2017 qui portait sur la classification de tweets. Nous avons développé une méthode fondée sur une extraction de motifs en caractères fermés et fréquents (ou chaînes répétées maximales au sens de l’algorithmique du texte) combinée avec des algorithmes d’apprentissage automatique. Cette méthode est assez proche des méthodes de stylométrie utilisées pour les tâches d’attribution d’auteur. Les deux autres méthodes se fondent sur 13 traits calculés à partir de ressources lexicales (FEEL, LabMT ainsi qu’une ressource interne). Pour une des méthodes, nous avons complété avec une représentation en sac de mots, pour l’autre avec une représentation en plongements lexicaux (word embeddings). La méthode au grain caractère s’est avérée la plus prometteuse notamment sur la tâche de détection des tweets figuratifs (tâche 2).
Mots clés : Fouille, motifs en caractères, grain caractère, chaînes répétées, méthodes alingues, plongement lexical, tweet.