talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une analyse thématique fondée sur un principe d'amorçage

Olivier Ferret, Brigitte Grau

Résumé : L'analyse thématique est une étape importante pour de nombreuses applications en traitement automatique des langues, telles que le résumé ou l'extraction d'information par exemple. Elle ne peut être réalisée avec une bonne précision qu'en exploitant une source de connaissances structurées sur les thèmes, laquelle est difficile à constituer à une large échelle. Dans cet article, nous proposons de résoudre ce problème par un principe d'amorçage : une première analyse thématique, fondée sur l'utilisation d'une source de connaissances faiblement structurée mais relativement aisée à construire, un réseau de collocations, permet d'apprendre des représentations explicites de thèmes, appelées signatures thématiques. Ces dernières sont ensuite utilisées pour mettre en oeuvre une seconde analyse thématique, plus précise et plus fiable.

Mots clés : analyse thématique, cohésion lexicale, focalisation, réseau de collocations