talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Quel est l'apport de la détection d'entités nommées pour l'extraction d'information en domaine restreint ?

Camille Dutrey, Chloé Clavel, Sophie Rosset, Ioana Vasilescu, Martine Adda-Decker

Résumé : Les travaux liés à la définition et à la reconnaissance des entités nommées sont généralement envisagés en domaine ouvert, à travers la conception de catégories génériques (noms de personnes, de lieux, etc.) et leur application à des données textuelles issues de la presse (orale comme écrite). Par ailleurs, la fouille des données issues de centres d’appel est stratégique pour une entreprise comme EDF, compte tenu du rôle crucial joué par l’opinion pour les applications marketing, ce qui passe par la définition d’entités d’intérêt propres au domaine. Nous comparons les deux types de modèles d’entités - génériques et spécifiques à un domaine précis - afin d’observer leurs points de recouvrement, via l’annotation manuelle d’un corpus de conversations en centres d’appel. Nous souhaitons ainsi étudier l’apport d’une détection en entités nommées génériques pour l’extraction d’information métier en domaine restreint.

Abstract : In the framework of general domain dialog corpora a particular focus is dedicated to Named Entities definition and recognition, which are mostly very generic (personal names, locations, etc.). Moreover, call-centre data mining is strategic for a company like EDF, the public opinion analysis playing a significant role in EDF services quality evaluation and for marketing applications. In this purpose a domain dependant definition of entities of interest is essential. In this primary work we compare two types of entities models (generic and specific to the domain) in order to observe their respective coverage. We annotated manually a sub-corpus extracted from a large corpus of oral dialogs recorded in an EDF call-centre. The respective proportion of generic vs domain-specific Named Entities is then estimated. Impact for future work on building EDF domain-specific entities models is discussed.

Mots clés : entités nommées, concepts métier, extraction d’information, données conversationnelles, annotation

Keywords : named entities, business concept, information extraction, conversational data, annotation