talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Ubiq : une plateforme de collecte, analyse et valorisation des corpus

François-Régis Chaumartin

Résumé : Proxem édite Ubiq, une plateforme de collecte de documents et d’analyse sémantique, capable d'extraire des informations pertinentes à partir du contenu de vastes corpus. Les documents analysés sont d’une grande diversité : opinions collectées sur des sites web, emails de réclamation ou de demande d’information, réponse à des questions ouvertes dans des sondages, offres ou demandes d’emploi, etc. La reconnaissance des entités nommées joue un rôle central car c’est un préalable à d’autres traitements sémantiques. La conception d’un module de reconnaissance d’entités nommées nécessite généralement un investissement important en amont, avec une adaptation de domaine. Ubiq propose une approche d’apprentissage faiblement supervisé de l’extraction d’entités nommées qui tient compte du corpus collecté et de ressources externes (Wikipédia). La méthode et l’outillage développés permettent de déterminer à la volée, en interaction avec l’utilisateur, la granularité des types d’entités adaptée à un corpus de texte tout-venant.

Abstract : Proxem publishes Ubiq, a platform for web crawling and semantic analysis, which can extract relevant information from large corpus. Documents are of great variety: reviews crawled from websites, emails about complaints or requests for information, answers to open questions in surveys, employment offers or job applications, etc. Named Entity Recognition plays a key role since it is a prerequisite to further semantic processing. The design of a NER module generally requires a significant upfront investment with some domain adaptation. Ubiq proposes a semi-supervised approach to NER that takes into account the crawled corpus and external resources (Wikipedia). The proposed method and tools allow to get on the fly, with some user interaction, the type granularity of entities suitable for a given corpus.

Mots clés : entités nommées, désambiguïsation, apprentissage, Wikipédia, catégorisation

Keywords : named entities, disambiguation, machine learning, Wikipedia, categorization