talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Segmenter et structurer thématiquement des textes par l’utilisation conjointe de collocations et de la récurrence lexicale

Olivier Ferret

Résumé : Nous exposons dans cet article une méthode réalisant de façon intégrée deux tâches de l’analyse thématique : la segmentation et la détection de liens thématiques. Cette méthode exploite conjointement la récurrence des mots dans les textes et les liens issus d’un réseau de collocations afin de compenser les faiblesses respectives des deux approches. Nous présentons son évaluation concernant la segmentation sur un corpus en français et un corpus en anglais et nous proposons une mesure d’évaluation spécifiquement adaptée à ce type de systèmes.

Abstract : We present in this paper a method for achieving in an integrated way two tasks of topic analy-sis: segmentation and link detection. This method combines the lexical recurrence in texts and the relations from a collocation network to compensate for the respective weaknesses of the two approaches. We report its evaluation for segmentation on a corpus in French and another in English and we propose an evaluation measure that specifically suits that kind of systems.

Mots clés : Analyse du discours, analyse thématique, segmentation, détection de liens thématiques

Keywords : Discourse analysis, topic analysis, topic segmentation, link detection