talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une segmentation thématique fondée sur la cohésion lexicale

Olivier Ferret

Résumé : L'analyse thématique s'avère très utile, voire indispensable, dans nombre d'applications en traitement automatique des langues. Des méthodes permettent déjà de segmenter sur une large échelle des textes en blocs thématiquement cohérents. Elles s'appuient pour l'essentiel sur la distribution des mots. Certaines tentent également d'exploiter la notion de cohésion lexicale. Cette utilisation présuppose toutefois l'existence d'une source de connaissances rendant compte de cette cohésion entre mots. Nous proposons de constituer celle-ci de manière automatique au travers d'un réseau de cooccurrences lexicales élaboré à partir d'un vaste ensemble de textes. Nous proposons également une méthode spécifique capable d'exploiter ce réseau afin de segmenter des textes. Cette méthode repose sur l'évaluation de la cohésion thématique en tout point d'un texte au moyen d'une fenêtre glissante. Cette cohésion est calculée directement à partir de la cohésion mutuelle des mots présents dans la fenêtre. La segmentation proprement dite est réalisée automatiquement par une analyse de cette courbe de cohésion. On obtient ainsi un ensemble de segments dotés chacun d'une évaluation de sa cohésion interne. Une évaluation de cette méthode est présentée pour une tâche de segmentation de textes contigus ainsi que de façon plus indirecte pour une tâche d'extraction de domaines sémantiques.