talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Identification de descripteurs pour la caractérisation de registres

Jade Mekki, Delphine Battistelli, Gwénolé Lecorvé, Nicolas Béchet

Résumé : L’article présente une étude des descripteurs linguistiques pour la caractérisation d’un texte selon son registre de langue (familier, courant, soutenu). Cette étude a pour but de poser un premier jalon pour des tâches futures sur le sujet (classification, extraction de motifs discriminants). À partir d’un état de l’art mené sur la notion de registre dans la littérature linguistique et sociolinguistique, nous avons identifié une liste de 72 descripteurs pertinents. Dans cet article, nous présentons les 30 premiers que nous avons pu valider sur un corpus de textes français de registres distincts.

Mots clés : registres de langue, descripteur linguistique, validation.