talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Représentation des expressions composées en macédonien en tant qu’entrées lexicales en Unitex

Aneta Rafajlovska, Katerina Zdravkova

Résumé : Le logiciel de traitement de corpus Unitex 3.0 a été utilisé pour obtenir la flexion automatique de mots simples et des mots composés en langue macédonienne. En utilisant les graphes de flexion des mots simples, nous avons réussi à représenter les expressions composées du corpus en tant qu’entrées lexicales dans un dictionnaire DELAC en Unitex. En outre, nous avons créé des transducteurs à états-finis qui permettent de fléchir les expressions composées et nous avons obtenu automatiquement toutes leurs formes fléchies que nous avons stockées dans un dictionnaire DELACF (DELA de formes Composées Fléchies).

Abstract : The corpus processing system – Unitex 3.0 was used to obtain the automatic inflection of the simple word forms and the multiword expressions in Macedonian. Based on the inflection graphes of the simple word forms we managed to represent the multiword expressions retrieved from the corpus as lexical entries in a DELAC dictionary in Unitex. We also created inflection finite-state transducers for the multiword expressions and as a result we managed to obtain automatically all the inflected forms of the multiword expressions in the form of a DELACF dictionary of compound inflected forms.

Mots clés : Expressions composées, mots composés, mots simples, flexion automatique, transducteurs à états-finis de flexion, Unitex, Multiflex.

Keywords : Mltiword expressions, compound words, simple word forms, automatic inflection, inflection finite-state transducers, Unitex, Multiflex.