talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Enrichissement automatique de lexique de noms propres à partir de corpus

Frédéric Béchet, Alexis Nasr, Franck Genet

Résumé : Cet article présente une méthode d’étiquetage sémantique de noms propres fondé sur la technique des arbres de décision. Ces derniers permettent de modéliser les éléments saillants dans les contextes d’occurrence de noms propres d’une classe donnée. Les arbres de décision sont construits automatiquement sur un corpus d’apprentissage étiqueté, ils sont ensuite utilisés pour étiqueter des noms propres apparaissant dans un corpus de test. Les résultats de l’étiquetage du corpus de test est utilisé pour enrichir un lexique de noms propres. Ce dernier peut être utilisé à son tour pour réestimer les paramètres d’un étiqueteur stochastique. Nous nous intéressons en particulier au cas où le corpus de test a été glané sur le Web.

Mots clés : expression régulière, entrée lexicale, étiquetage, arbre, arbre de décision, corpus, corpus de test