talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Un étiqueteur de rôles grammaticaux libre pour le français intégré à Apache UIMA

Charles Dejean, Manoel Fortun, Clotilde Massot, Vincent Pottier, Fabien Poulard, Matthieu Vernier

Résumé : L’étiquetage des rôles grammaticaux est une tâche de pré-traitement récurrente. Pour le français, deux outils sont majoritairement utilisés : TreeTagger et Brill. Nous proposons une démarche, ne nécessitant aucune ressource, pour la création d’un modèle de Markov caché (HMM) pour palier les problèmes de ces outils, et de licences notamment. Nous distribuons librement toutes les ressources liées à ce travail.

Abstract : Part-of-speech tagging is a common preprocessing task. For the French language, Brill and TreeTagger are the most often used tools. We propose a method, requiring no resource, to create a Hidden Markov Model to get rid of the problems and licences of these tools. We freely distribute all the resources related to this work.

Mots clés : étiquetage grammatical, Modèle de Markov caché, UIMA, Brill, TreeTagger

Keywords : grammatical tagging, Hidden Markov Model, UIMA, Brill, TreeTagger