Catégorisation de patrons syntaxiques par Self Organizing Maps
Jean-Jacques Mariage, Gilles Bernard
Résumé : Dans cet article, nous présentons quelques résultats en catégorisation automatique de données du langage naturel sans recours à des connaissances préalables. Le système part d’une liste de formes grammaticales françaises et en construit un graphe qui représente les chaînes rencontrées dans un corpus de textes de taille raisonnable ; les liens sont pondérés à partir de données statistiques extraites du corpus. Pour chaque chaîne de formes grammaticales significative, un vecteur reflétant sa distribution est extrait et passé à un réseau de neurones de type carte topologique auto-organisatrice. Une fois le processus d’apprentissage terminé, la carte résultante est convertie en un graphe d’étiquettes générées automatiquement, utilisé dans un tagger ou un analyseur de bas niveau. L’algorithme est aisément adaptable à toute langue dans la mesure où il ne nécessite qu’une liste de marques grammaticales et un corpus important (plus il est gros, mieux c’est). Il présente en outre un intérêt supplémentaire qui est son caractère dynamique : il est extrêmement aisé de recalculer les données à mesure que le corpus augmente.
Abstract : The present paper presents some results in automatic categorization of natural language data without previous knowledge. The system starts with a list of French grammatical items, builds them into a graph that represents the strings encountered in a reasonable corpus of texts; the links are weighted based upon statistical data extracted from the corpus. For each significant string of grammatical items a vector reflecting its distribution is extracted, and fed into a Self- Organizing Map neural network. Once the learning process is achieved, the resulting map will be converted into a graph of automatically generated tags, used in a tagger or a shallow parser. The algorithm may easily be adapted to any language, as it needs only the list of grammatical markers and a large corpus (the bigger the better). Another point of interest is its dynamic character: it is easy to recompute the data as the corpus grows.
Mots clés : Langues naturelles, réseaux neuronaux, extraction de connaissances
Keywords : Natural languages, neural networks, knowledge extraction