talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une évaluation de l’impact des types de textes sur la tâche de segmentation thématique

Clémentine Adam, Philippe Muller, Cécile Fabre

Résumé : Cette étude a pour but de contribuer à la définition des objectifs de la segmentation thématique (ST), en incitant à prendre en considération le paramètre du type de textes dans cette tâche. Notre hypothèse est que, si la ST est certes pertinente pour traiter certains textes dont l’organisation est bien thématique, elle n’est pas adaptée à la prise en compte d’autres modes d’organisation (temporelle, rhétorique), et ne peut pas être appliquée sans précaution à des textes tout-venants. En comparant les performances d’un système de ST sur deux corpus, à organisation thématique "forte" et "faible", nous montrons que cette tâche est effectivement sensible à la nature des textes.

Abstract : This paper aims to contribute to a better definition of the requirements of the text segmentation task, by stressing the need for taking into account the types of texts that can be appropriately considered. Our hypothesis is that while TS is indeed relevant to analyse texts with a thematic organisation, this task is ill-fitted to deal with other modes of text organisation (temporal, rhetorical, etc.). By comparing the performance of a TS system on two corpora, with either a "strong" or a "weak" thematic organisation, we show that TS is sensitive to text types.

Mots clés : Segmentation thématique, organisation textuelle, cohésion lexicale, voisins distributionnels

Keywords : Text segmentation, textual organisation, lexical cohesion, distributional neighbours