talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Evaluation de méthodes de segmentation thématique linéaire non supervisées après adaptation au français

Laurianne Sitbon, Patrice Bellot

Résumé : Nous proposons une évaluation de différentes méthodes et outils de segmentation thématique de textes. Nous présentons les outils de segmentation linéaire et non supervisée DotPlotting, Segmenter, C99, TextTiling, ainsi qu’une manière de les adapter et de les tester sur des documents français. Les résultats des tests montrent des différences en performance notables selon les sujets abordés dans les documents, et selon que le nombre de segments à trouver est fixé au préalable par l’utilisateur. Ces travaux font partie du projet Technolangue AGILE-OURAL.

Abstract : This paper presents an empirical comparison between different methods for segmenting texts. After presenting segmentation tools and more specifically linear segmentation algorithms, we present a comparison of these methods on both French and English text corpora. This evalutation points out that the performance of each method heavilly relies on the topic of the documents, and the number of boundaries to be found. This work is part of the project Technolangue AGILE-OURAL.

Mots clés : Segmentation thématique, métriques de Beeferman et WindowDiff, cohésion lexicale, chaînes lexicales

Keywords : Topic segmentation, WindowDiff and Beeferman measures, lexical cohesion, lexical chains