@inproceedings{Lecorve-Ayats-Benoit-Mekki-Chevelu-Battistelli-Bechet:TALN:2018,
    author = "Lecorv\'{e},Gw\'{e}nol\'{e} and Ayats,Hugo and Beno\^{\i}t,Fournier and Mekki,Jade and Chevelu,Jonathan and Battistelli,Delphine and B\'{e}chet,Nicolas",
    title = "Construction conjointe d'un corpus et d'un classifieur pour les registres de langue en fran\c{c}ais",
    booktitle = "Actes de la Conf\'{e}rence TALN - Volume 1 - Articles longs, articles courts de TALN",
    month = "5",
    year = "2018",
    address = "Rennes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "143-156",
    note = "Joint building of a corpus and a classifier for language registers in French",
    abstract = "Les registres de langue sont un trait stylistique marquant dans l'appr\'{e}ciation d'un texte ou d'un discours. Cependant, il sont encore peu \'{e}tudi\'{e}s en traitement automatique des langues. Dans cet article, nous pr\'{e}sentons une approche semi-supervis\'{e}e permettant la construction conjointe d'un corpus de textes \'{e}tiquet\'{e}s en registres et d'un classifieur associ\'{e}. Cette approche s'appuie sur un ensemble initial et restreint de donn\'{e}es expertes. Via une collecte automatique et massive de pages web, l'approche proc\`{e}de par it\'{e}rations en alternant l'apprentissage d'un classifieur interm\'{e}diaire et l'annotation de nouveaux textes pour augmenter le corpus \'{e}tiquet\'{e}. Nous appliquons cette approche aux registres familier, courant et soutenu. \`{A} l'issue du processus de construction, le corpus \'{e}tiquet\'{e} regroupe 800 000 textes et le classifieur, un r\'{e}seau de neurones, pr\'{e}sente un taux de bonne classification de 87 \\%.",
    keywords = "Registres de langue, apprentissage semi-supervis\'{e}, construction de corpus, classification automatique.",
    url = "https://talnarchives.atala.org/TALN/TALN-2018/38.pdf"
}