Typologies pour l’annotation de textes non standard en français
Louise Tarrade, Cédric Lopez, Rachel Panckhurst, Geroges Antoniadis
Résumé : La tâche de normalisation automatique des messages issus de la communication électronique médiée requiert une étape préalable consistant à identifier les phénomènes linguistiques. Dans cet article, nous proposons deux typologies pour l’annotation de textes non standard en français, relevant respectivement des niveaux morpho-lexical et morpho-syntaxique. Ces typologies ont été développées en conciliant les typologies existantes et en les faisant évoluer en parallèle d’une annotation manuelle de tweets et de SMS.
Mots clés : typologie, SMS, tweets, normalisation