talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Typologies pour l’annotation de textes non standard en français

Louise Tarrade, Cédric Lopez, Rachel Panckhurst, Geroges Antoniadis

Résumé : La tâche de normalisation automatique des messages issus de la communication électronique médiée requiert une étape préalable consistant à identifier les phénomènes linguistiques. Dans cet article, nous proposons deux typologies pour l’annotation de textes non standard en français, relevant respectivement des niveaux morpho-lexical et morpho-syntaxique. Ces typologies ont été développées en conciliant les typologies existantes et en les faisant évoluer en parallèle d’une annotation manuelle de tweets et de SMS.

Mots clés : typologie, SMS, tweets, normalisation