talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Comparaison de méthodes lexicales et syntaxico-sémantiques dans la segmentation thématique de texte non supervisée

Alexandre Labadié, Violaine Prince

Résumé : Cet article présente une méthode basée sur des calculs de distance et une analyse sémantique et syntaxique pour la segmentation thématique de texte. Pour évaluer cette méthode nous la comparons à un un algorithme lexical très connu : c99. Nous testons les deux méthodes sur un corpus de discours politique français et comparons les résultats. Les deux conclusions qui ressortent de notre expérience sont que les approches sont complémentaires et que les protocoles d’évaluation actuels sont inadaptés.

Abstract : This paper present a semantic and syntactic distance based method in topic text segmentation and compare it to a very well known text segmentation algorithm : c99. To do so we ran the two algorithms on a corpus of twenty two French political discourses and compared their results. Our two conclusions are that the two approaches are complementary and that evaluation methods in this domain should be revised.

Mots clés : Méthodes d’évaluation, segmentation de texte, segmentation thématique

Keywords : Evaluation methods, text segmentation, topic segmentation