@inproceedings{Mekki-Battistelli-Bechet-Lecorve:TALN:2021,
    author = "Mekki, Jade and Battistelli, Delphine and B\'echet, Nicolas and Lecorv\'e, Gw\'enol\'e",
    title = "TREMoLo : un corpus multi-\'etiquettes de tweets en fran\c{c}ais pour la caract\'erisation des registres de langue",
    booktitle = "Actes de la 28e Conf\'erence sur le Traitement Automatique des Langues Naturelles. Volume 1 : Articles courts",
    month = "6",
    year = "2021",
    address = "Lille, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "132-140",
    note = "TREMoLo : a Multi-Label Corpus of French Tweets for Language Register Characterization",
    abstract = "Des registres tels que familier, courant et soutenu sont un ph\'enom\`ene imm\'ediatement perceptible par tout locuteur d'une langue. Ils restent encore peu \'etudi\'es en traitement des langues (TAL), en particulier en dehors de l'anglais. Cet article pr\'esente un large corpus de tweets en fran\c{c}ais annot\'es en registres de langue. L'annotation int\`egre des marqueurs propres \`a ce type de textes (tels que les \'emotic\^ones ou les hashtags) et habituellement \'evinc\'es dans les travaux en TAL. \`A partir d'une graine annot\'ee manuellement en proportion d'appartenance aux registres, un classifieur de type CamemBERT est appris et appliqu\'e sur un large ensemble de tweets. Le corpus annot\'e en r\'esultant compte 228 505 tweets pour un total de 6 millions de mots. Des premi\`eres analyses statistiques sont men\'ees et permettent de conclure \`a la qualit\'e du corpus pr\'esent\'e. Le corpus ainsi que son guide d'annotation sont mis \`a la disposition de la communaut\'e scientifique.",
    keywords = "registres de langue, CamemBERT, corpus annot\'e, tweets.",
    url = "http://talnarchives.atala.org/TALN/TALN-2021/136.pdf"
}