talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Appariement d’entités nommées coréférentes : combinaisons de mesures de similarité par apprentissage supervisé

Erwan Moreau, François Yvon, Olivier Cappé

Résumé : L’appariement d’entités nommées consiste à regrouper les différentes formes sous lesquelles apparaît une entité. Pour cela, des mesures de similarité textuelle sont généralement utilisées. Nous proposons de combiner plusieurs mesures afin d’améliorer les performances de la tâche d’appariement. À l’aide d’expériences menées sur deux corpus, nous montrons la pertinence de l’apprentissage supervisé dans ce but, particulièrement avec l’algorithme C4.5.

Abstract : Matching named entities consists in grouping the different forms under which an entity may occur. Textual similarity measures are the usual tools for this task. We propose to combine several measures in order to improve the performance. We show the relevance of supervised learning in this objective through experiences with two corpora, especially in the case of the C4.5 algorithm.

Mots clés : Entités nommées, Appariement, Mesures de similarité textuelle, Apprentissage supervisé

Keywords : Named entities,Matching, Textual similaritymeasures, Supervised learning