talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Elaboration d'un corpus d'apprentissage à partir d'articles de recherche en chimie

Bénédicte Goujon

Résumé : Dans le cadre d'un projet mené en 2021, un objectif consistait à extraire automatiquement des informations à partir d'articles de recherche en chimie des matériaux : des valeurs associées à des propriétés pour différents composants chimiques. Le travail présenté ici décrit les étapes de la construction du corpus textuel d'apprentissage, annoté manuellement par des experts du domaine selon les besoins identifiés dans le projet, pour une utilisation ultérieure par des outils d'extraction d'informations.

Mots clés : Extraction d'information dans les textes scientifiques, tableaux, figures, bibliographie, Analyse de documents scientifiques, Reconnaissance d'entités nommées dans les textes scientifiques