Apprentissage d’une classification thématique générique et cross-langue à partir des catégories de la Wikipédia
François-Régis Chaumartin
Résumé : La catégorisation de textes nécessite généralement un investissement important en amont, avec une adaptation de domaine. L’approche que nous proposons ici permet d’associer finement à un texte tout-venant écrit dans une langue donnée, un graphe de catégories de la Wikipédia dans cette langue. L’utilisation de l’index inter-langues de l’encyclopédie en ligne permet de plus d’obtenir un sous-ensemble de ce graphe dans la plupart des autres langues.
Abstract : Text categorization usually requires a significant investment, which must often be associated to a field adaptation. The approach we propose here allows to finely associate a graph of Wikipedia categories to any text written in a given language. Moreover, the inter-lingual index of the online encyclopedia allows to get a subset of this graph in most other languages.
Mots clés : catégorisation, apprentissage, recherche d’information, Wikipédia, graphes
Keywords : categorization, machine learning, information retrieval, Wikipedia, graphs