talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

UPERY : un outil d'analyse distributionnelle étendue pour la construction d’ontologies à partir de corpus

Didier Bourigault

Résumé : Nous présentons un module mettant en oeuvre une méthode d'analyse distributionnelle dite "étendue". L'analyseur syntaxique de corpus SYNTEX effectue l'analyse en dépendance de chacune des phrases du corpus, puis construit un réseau de mots et syntagmes, dans lequel chaque syntagme est relié à sa tête et à ses expansions. A partir de ce réseau, le module d'analyse distributionnelle UPERY construit pour chaque terme du réseau l'ensemble de ses contextes syntaxiques. Les termes et les contextes syntaxiques peuvent être simples ou complexes. Le module rapproche ensuite les termes, ainsi que les contextes syntaxiques, sur la base de mesures de proximité distributionnelle. L'ensemble de ces résultats est utilisé comme aide à la construction d'ontologie à partir de corpus spécialisés.

Abstract : We present a software that implements a method of "extended" distributional analysis. The corpus syntactic analyser SYNTEX yields a dependency syntactic analyse of each sentence of the corpus. It builds a network of words and phrases in which each phrase is connected to its head and its expansion. The distributional analysis module UPERY relies on this network to associate to each term in the network a set of syntactic contexts. Syntactic contexts as well as terms may be simple or complex. The UPERY module calculates distributional proximities between terms as well as between contexts. The results are used for the building of ontological resources from specialized corpora.

Mots clés : analyse syntaxique automatique, analyse distributionnelle, corpus, ontologie, terminologie

Keywords : parsing, distributional analysis, corpus, ontology, terminology