talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Filtrage thématique d’un réseau de collocations

Olivier Ferret

Résumé : Les réseaux lexicaux de type WordNet présentent une absence de relations de nature thématique, relations pourtant très utiles dans des tâches telles que le résumé automatique ou l’extraction d’information. Dans cet article, nous proposons une méthode visant à construire automatiquement à partir d’un large corpus un réseau lexical dont les relations sont préférentiellement thématiques. En l’absence d’utilisation de ressources de type dictionnaire, cette méthode se fonde sur un principe d’auto-amorçage : un réseau de collocations est d’abord construit à partir d’un corpus puis filtré sur la base des mots du corpus que le réseau initial a permis de sélectionner. Nous montrons au travers d’une évaluation portant sur la segmentation thématique que le réseau final, bien que de taille bien inférieure au réseau initial, permet d’obtenir les mêmes performances que celui-ci pour cette tâche.

Abstract : Lexical networks such as WordNet are known to have a lack of topical relations although these ones are very useful for tasks such as text summarization or information extraction. In this article, we present a method for automatically building from a large corpus a lexical network whose relations are preferably topical ones. As it does not rely on resources such as dictionaries, this method is based on self-bootstrapping: a collocation network is first built from a corpus and then, is filtered by using the words of the corpus that are selected by the initial network. We report an evaluation about topic segmentation showing that the results got with the filtered network are the same as the results got with the initial network although the first one is signicantly smaller than the second one.

Mots clés : Collocations, cooccurrences lexicales, réseaux lexicaux thématiques, analyse thématique

Keywords : Collocations, lexical cooccurrences, topical lexical networks, topic analysis