talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Néonaute, Enrichissement sémantique pour la recherche d’information

Emmanuel Cartier, Loïc Galand, Peter Sterling, Sara Aubry

Résumé : Avec l’explosion du nombre de documents numériques accessibles, les besoins en outils pour l’enrichissement sémantique des données textuelles, ainsi que des fonctionnalités avancées de recherche et d’exploration des collections, se font sentir. Cette combinaison entre les domaines de la recherche d’information et du traitement automatique des langues est l’une des caractéristiques du projet Néonaute. Ce projet, financé par la DGLFLF 1 en 2017 (appel Langues et numérique), regroupe la Bibliothèque nationale de France (BnF), le LIPN - RCLN (CNRS UMR 7030) et l’Université de Strasbourg (LILPA, EA 1339). Son objectif principal est de doter les observateurs de la langue française d’un moteur de recherche s’appuyant sur une collection de sites de presse d’actualité, collectés automatiquement par la BnF au titre de sa mission de dépôt légal de l’internet. Sur cette collection, le projet vise à proposer un moteur de recherche de nouvelle génération, disposant d’une indexation enrichie par l’analyse automatique des textes (analyse morphosyntaxique, entités nommées, thématiques), d’une part, et d’outils de recherche, d’exploration et de visualisation multidimensionnelle interactive des résultats, d’autre part.