Approche évolutive des notions de base pour une représentation thématique des connaissances générales
Alain Joubert, Mathieu Lafourcade, Didier Schwab
Résumé : Dans le domaine du Traitement Automatique du Langage Naturel, pour élaborer un système de représentation thématique des connaissances générales, des méthodes s’appuyant sur des thésaurus sont utilisées depuis une quinzaine d’années. Un thésaurus est constitué d’un ensemble de concepts qui définissent un système générateur d’un espace vectoriel modélisant les connaissances générales. Ces concepts, souvent organisés en une hiérarchie arborescente, constituent un instrument fondamental, mais totalement figé. Même si les notions évoluent (nous pensons par exemple aux domaines techniques), un thésaurus ne peut quant à lui être modifié que lors d’un processus particulièrement lourd, car nécessitant la collaboration d’experts humains. C’est à ce problème que nous nous attaquons ici. Après avoir détaillé les caractéristiques que doit posséder un système générateur de l’espace vectoriel de modélisation des connaissances, nous définissons les « notions de base ». Celles-ci, dont la construction s’appuie initialement sur les concepts d’un thésaurus, constituent un autre système générateur de cet espace vectoriel. Nous abordons la détermination des acceptions exprimant les notions de base, ce qui nous amène naturellement à nous poser la question de leur nombre. Enfin, nous explicitons comment, s’affranchissant des concepts du thésaurus, ces notions de base évoluent par un processus itératif au fur et à mesure de l’analyse de nouveaux textes.
Abstract : In the field of Natural Language Processing, in order to arrive at a thematic representation system of general knowledge, methods leaning on thesaurus have been widely used for about fifteen years. A thesaurus consists of a set of concepts defining a system generating a vector space to model general knowledge. These concepts, often organized as a hierarchy, constitute a fundamental, but fixed tool. When concepts evolve (as in technical fields), a thesaurus can evolve, but only as a result of an arduous process, requiring the collaboration of human experts. After detailing the desired characteristics of knowledge modelling systems, we define the « basic notions ». Their construction is initially based on the concepts of a thesaurus. They constitute another generating system of this vector space. We discuss the establishment of these basic notions, which naturally leads us to the question of their number. Lastly, we clarify how, being freed from the concepts of the thesaurus, the basic notions evolve progressively in an iterative process as new texts are being analysed.
Mots clés : thésaurus, vecteurs conceptuels, notions de base, évolutivité
Keywords : thesaurus, conceptual vectors, basic notions, evolution