talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Open Information Extraction: Approche Supervisée et Syntaxique pour le Français

Massinissa Atmani, Mathieu Lafourcade

Résumé : L’ Open Information Extraction, est un paradigme d’extraction conçu pour gérer l’adaptation de domaine, la principale difficulté des approches traditionnelles pour l’extraction d’informations. Cependant, la plupart des approches se concentrent sur l’anglais. Ainsi, nous proposons une approche supervisée pour l’OpenIE pour le français, nous développons également un corpus d’entraînement et un référentiel d’évaluation. Nous proposons un nouveau modèle basé en deux étapes pour l’étiquetage de séquence, qui identifie d’abord tous les arguments de la relation avant de les étiqueter. Les expérimentations montrent non seulement que l’approche que nous proposons obtient les meilleurs résultats, mais aussi que l’état de l’art actuel n’est pas assez robuste pour s’adapter à un domaine différent du domaine du corpus d’entraînement.

Mots clés : Extraction d’information, Apprentissage machine, Syntaxe.