talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Repérage des entités nommées pour l'arabe : adaptation non-supervisée et combinaison de systèmes

Souhir Gahbiche-Braham, Hélène Bonneau-Maynard, Thomas Lavergne, François Yvon

Résumé : La détection des Entités Nommées (EN) en langue arabe est un prétraitement potentiellement utile pour de nombreuses applications du traitement des langues, en particulier pour la traduction automatique. Cette tâche représente toutefois un sérieux défi, compte tenu des spécificités de l’arabe. Dans cet article, nous présentons un compte-rendu de nos efforts pour développer un système de repérage des EN s’appuyant sur des méthodes statistiques, en détaillant les aspects liés à la sélection des caractéristiques les plus utiles pour la tâche ; puis diverses tentatives pour adapter ce système d’une manière entièrement non supervisée.

Abstract : The recognition of Arabic Named Entities (NE) is a potentially useful preprocessing step for many Natural Language Processing Applications, such as Machine Translation. This task is however made very complex by some peculiarities of the Arabic language. In this paper, we present a summary of our recent efforts aimed at developing a statistical NE recognition system, with a specific focus on feature engineering aspects. We also report several approaches for adapting this system in an entirely unsupervised manner to a new domain.

Mots clés : Adaptation non supervisée, Repérage des entités nommées

Keywords : Unsupervised domain adaptation, named entity recognition