talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Système hybride pour la reconnaissance des entités nommées arabes à base des CRF

Emna Hkiri, Souheyl Mallat, Mounir Zrigui

Résumé : La reconnaissance d'entités nommées (REN) pour les langues naturelles telles que l'arabe est une tâche essentielle et difficile. Dans cet article, nous décrivons notre système hybride afin d'améliorer la performance du système de REN et de combler le manque de ressources pour le TAL arabe. Notre système applique un modèle CRF, un lexique bilingue d’ENs et des règles linguistiques spécifiques à la tâche de reconnaissance d'entités nommées dans les textes arabes. Les résultats empiriques indiquent que notre système surpasse l'état-de l’art de la REN arabe lorsqu'il est appliqué au corpus d’évaluation standard ANERcorp.

Mots clés : REN arabe, approche hybride, Modèle CRF, Linked Data datasets, lexique bilingue des ENs .