talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Transitions thématiques : Annotation d'un corpus journalistique et premières analyses

Alexandre Labadié, Patrice Enjalbert, Stéphane Ferrari

Résumé : Le travail présenté dans cet article est centré sur la constitution d’un corpus de textes journalistiques annotés au niveau discursif d’un point de vue thématique. Le modèle d’annotation est une segmentation classique, à laquelle nous ajoutons un repérage de zones de transition entre unités thématiques. Nous faisons l’hypothèse que dans un texte bien construit, le scripteur fournit des indications aidant le lecteur à passer d’un sujet à un autre, l’identification de ces indices étant susceptible d’améliorer les procédures de segmentation automatique. Les annotations produites ont fait l’objet d’analyses quantitatives mettant en évidence un ensemble de propriétés des transitions entre thèmes.

Abstract : The work presented in this paper focuses on the creation of a corpus of journalistic texts annotated at dicourse level, more precisely on a topic level. The annotation model is a classic segmentation one, to which we add transition zones between topical units. We assume that in a well-structured text, the author provides information helping the reader to move from one topic to another, where an identification of these clues is likely to improve automatic segmentation. The produced annotations have been subject of several quantitative analyses showing a set of linguistic properties of topical transitions.

Mots clés : Structure du discours, segments thématiques, transitions thématiques, annotation

Keywords : Discourse structure, topical segments, topical transitions, annotation