talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction de noms propres à partir de textes variés: problématique et enjeux

Leila Kosseim, Thierry Poibeau

Résumé : Cet article porte sur l’identification de noms propres à partir de textes écrits. Les stratégies à base de règles développées pour des textes de type journalistique se révèlent généralement insuffisantes pour des corpus composés de textes ne répondant pas à des critères rédactionnels stricts. Après une brève revue des travaux effectués sur des corpus de textes de nature journalistique, nous présentons la problématique de l’analyse de textes variés en nous basant sur deux corpus composés de courriers électroniques et de transcriptions manuelles de conversations téléphoniques. Une fois les sources d’erreurs présentées, nous décrivons l’approche utilisée pour adapter un système d’extraction de noms propres développé pour des textes journalistiques à l’analyse de messages électroniques.

Abstract : This paper discusses the influence of the corpus on the automatic identification of proper names in texts. Rule-based techniques developed for the newswire genre are generally not sufficient to deal with larger corpora containing texts that do not follow strict writing constraints. After a brief review of the research performed on news texts, we present some of the problems involved in the analysis of informal texts by using two different corpora (the first one composed of electronic mails, the second one of hand-transcribed telephone conversations). Once the sources of errors have been presented, we then describe an approach to adapt a proper name extraction system developed for newspaper texts to the analysis of e-mail messages.

Mots clés : Extraction d’information, Entités nommées