talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Etiquetage morpho-syntaxique du français à base d'apprentissage supervisé

Julien Bourdaillet, Jean-Gabriel Ganascia

Résumé : Nous présentons un étiqueteur morpho-syntaxique du français. Celui-ci utilise l’apprentissage supervisé à travers un modèle de Markov caché. Le modèle de langage est appris à partir d’un corpus étiqueté. Nous décrivons son fonctionnement et la méthode d’apprentissage. L’étiqueteur atteint un score de précision de 89 % avec un jeu d’étiquettes très riche. Nous présentons ensuite des résultats détaillés pour chaque classe grammaticale et étudions en particulier la reconnaissance des homographes.

Abstract : A french part-of-speech tagger is described. It is based on supervised learning: hidden Markov model and trained using a corpus of tagged text. We describe the way the model is learnt. A 89 % precision rate is achieved with a rich tagset. Detailed results are presented for each grammatical class. We specially pay attention to homographs recognition.

Mots clés : étiquetage morpho-syntaxique, apprentissage supervisé, modèle de Markov caché, évaluation, homographes

Keywords : part-of-speech tagging, supervised learning, hidden Markov model, evaluation, homographs