talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Elaboration d'une cascade de transducteurs pour l'extraction des noms de personnes dans les textes

Nathalie Friburger, Denis Maurel

Résumé : Cet article décrit une cascade de transducteurs pour l'extraction de noms propres dans des textes. Après une phase de pré-traitement (découpage du texte en phrases, étiquetage à l'aide de dictionnaires), une série de transducteurs sont appliqués les uns après les autres sur le texte et permettent de repérer, dans les contextes gauches et droits des éléments "déclencheurs" qui signalent la présence d'un nom de personne. Une évaluation sur un corpus journalistique (journal Le Monde) fait apparaître un taux de précision de 98,7% pour un taux de rappel de 91,9%.

Abstract : This article describes a fmite-state cascade for proper nouns extraction in texts. After a preprocessing (division of the text in sentences, tagging with dictionaries, etc.), a series of finite state transducers cascade is applied one after the other to the text and locate left and right contexts which indicate presence of a person name. An evaluation on a journalistic corpus (Le Monde) gives a rate of precision of 98,7% for a rate of recall of 91,9%.

Mots clés : Transducteur, noms propres, extraction de motifs

Keywords : Transducer, proper nouns, pattern extraction