talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Corpus de tweets et de SMS annotés pour l’observation de phénomènes linguistiques en français « non standard »

Louise Tarrade, Cédric Lopez

Résumé : Les tweets et les SMS ont pour spécificité d’être des textes comportant des phénomènes linguistiques qui dérogent aux règles normées de la langue. La multitude de ces phénomènes nous a conduit à développer une typologie spécifique à ce genre de texte que nous avons utilisée pour annoter un corpus composé de 1000 SMS et 1000 tweets. Un tel corpus annoté constitue un apport d’intérêt pour le TAL et les études sociolinguistiques. Dans cet article, nous présentons ce corpus annoté selon des phénomènes linguistiques d’ordre morpho-lexical et morpho-syntaxique et nous en dressons un premier bilan.

Mots clés : Tweets, SMS, Typologies, Annotations, Phénomènes linguistiques