talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Exploitation de treillis de Galois en désambiguïsation non supervisée d’entités nommées

Thomas Girault

Résumé : Nous présentons une méthode non supervisée de désambiguïsation d’entités nommées, basée sur l’exploitation des treillis de Galois. Nous réalisons une analyse de concepts formels à partir de relations entre des entités nommées et leurs contextes syntaxiques extraits d’un corpus d’apprentissage. Le treillis de Galois résultant fournit des concepts qui sont utilisés comme des étiquettes pour annoter les entités nommées et leurs contextes dans un corpus de test. Une évaluation en cascade montre qu’un système d’apprentissage supervisé améliore la classification des entités nommées lorsqu’il s’appuie sur l’annotation réalisée par notre système de désambiguïsation non supervisée.

Abstract : We present an unsupervised method for named entities disambiguation, based on concept lattice mining.We perform a formal concept analysis from relations between named entities and their syntactic contexts observed in a training corpora. The resulting lattice produces concepts which are considered as labels for named entities and context annotation. Our approach is validated through a cascade evaluation which shows that supervised named entity classification is improved by using the annotation produced by our unsupervised disambiguation system.

Mots clés : Désambiguïsation non supervisée, treillis de Galois, entités nommées

Keywords : Unsupervised word sense disambiguation, concept lattice, named entities