Construction d'un jeu de données de publications scientifiques pour le TAL et la fouille de textes à partir d'ISTEX
Constant Mathieu
Résumé : La plateforme ISTEX (https://www.istex.fr/) permet d'accéder à une large base d'archives scientifiques comptant plus de 25 millions de documents de tous les grands domaines scientifiques. Les documents incluent non seulement les métadonnées mais aussi le texte plein, et ont été prétraités de manière homogène pour faciliter leur traitement automatique. Dans cet exposé, nous présenterons une initiative pour créer une dynamique de recherche en TAL et TDM autour de ces données. En particulier, nous présenterons les travaux en cours pour la construction d'un jeu de données dédié au TAL et la fouille de textes.
Mots clés : Jeux de données composés des textes scientifiques