talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Un modèle multi-sources pour la segmentation en sujets de journaux radiophoniques

Stéphane Huet, Guillaume Gravier, Pascale Sébillot

Résumé : Nous présentons une méthode de segmentation de journaux radiophoniques en sujets, basée sur la prise en compte d’indices lexicaux, syntaxiques et acoustiques. Partant d’un modèle statistique existant de segmentation thématique, exploitant la notion de cohésion lexicale, nous étendons le formalisme pour y inclure des informations d’ordre syntaxique et acoustique. Les résultats expérimentaux montrent que le seul modèle de cohésion lexicale ne suffit pas pour le type de documents étudié en raison de la taille variable des segments et de l’absence d’un lien direct entre segment et thème. L’utilisation d’informations syntaxiques et acoustiques permet une amélioration substantielle de la segmentation obtenue.

Abstract : We present a method for story segmentation of radio broadcast news, based on lexical, syntactic and audio cues. Starting from an existing statistical topic segmentation model which exploits the notion of lexical cohesion, we extend the formalism to include syntactic and acoustic knwoledge sources. Experimental results show that the sole use of lexical cohesion is not efficient for the type of documents under study because of the variable size of the segments and the lack of direct relation between topics and stories. The use of syntactics and acoustics enables a consequent improvement of the quality of the segmentation.

Mots clés : segmentation en sujets, corpus oraux, cohésion lexicale, indices acoustiques, indices syntaxiques

Keywords : story segmentation, spoken documents, lexical cohesion, acoustic cues, syntactic cues