talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Détection des mots non-standards dans les tweets avec des réseaux de neurones

Tian Tian, Isabelle Tellier, Marco Dinarelli, Pedro Cardoso

Résumé : Dans cet article, nous proposons un modèle pour détecter dans les textes générés par des utilisateurs (en particulier les tweets), les mots non-standards à corriger. Nous utilisons pour cela des réseaux de neurones convolutifs au niveau des caractères, associés à des “plongements” (embeddings) des mots présents dans le contexte du mot courant. Nous avons utilisé pour l’évaluation trois corpus de référence. Nous avons testé différents modèles qui varient suivant leurs plongements pré-entrainés, leurs configurations et leurs optimisations. Nous avons finalement obtenu une F1-mesure de 0.972 en validation croisée pour la classe des mots non-standards. Cette détection des mots à corriger est l’étape préliminaire pour la normalisation des textes non standards comme les tweets.

Mots clés : mots non-standards, réseaux de neurones, modèle convolutionnel, plongements.