talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Étiquetage morpho-syntaxique de textes kabyles

Sinikka Loikkanen

Résumé : Cet article présente la construction d’un étiqueteur morpho-syntaxique développé pour annoter un corpus de textes kabyles (1 million de mots). Au sein de notre projet, un étiqueteur morpho-syntaxique a été développé et implémenté. Ceci inclut un analyseur morphologique ainsi que l’ensemble de règles de désambiguïsation qui se basent sur l’approche supervisée à base de règles. Pour effectuer le marquage, un jeu d’étiquettes morpho-syntaxiques pour le kabyle est proposé. Les résultats préliminaires sont très encourageants. Nous obtenons un taux d’étiquetage réussi autour de 97 % des textes en prose.

Abstract : This paper describes the construction of a morpho-syntactic tagger developed to annotate our Kabyle text corpus (1 million words).Within our project, a part-of-speech tagger has been developed and implemented. That includes a morphological analyser and a set of disambiguation rules based on supervised rule-based tagging. To realise the annotation, a POS tagset for Kabyle is proposed. The first results of tests are very encouraging. At present stage, our tagger reaches 97 % of success.

Mots clés : Étiquetage morpho-syntaxique, corpus de textes, langue kabyle, berbère

Keywords : Part of speech tagging, text corpus, kabyle language, berber