talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Acquisition non supervisée de ressources morphologiques en ukrainien

Natalia Grabar, Thierry Hamon

Résumé : La disponibilité de ressources morphologiques est un besoin important et récurrent car elles permettent le d´eveloppement des outils et applications de TAL dans une langue. De telles ressources fournissent, en effet, les informations de base dont ces outils ont besoin pour effectuer des traitements plus évolués (recherche d’information, étiquetage morpho-syntaxiques, etc). Nous proposons d’effectuer l’acquisition de ressources morphologiques pour la langue ukrainienne, qui est une langue peu dotée actuellement. La méthode proposée exploite des corpus afin d’en extraire les mots qui sont liés morphologiquement entre eux. La force d’association entre ces mots indique la probabilité du lien morphologique et sémantique entre eux. Nous utilisons trois corpus (littéraire, médical et encyclopédique) et évaluons les résultats obtenus. Selon les corpus, la précision varie entre 67 % et 86 %. Les résultats sont aussi comparés entre les corpus, ce qui montre que la redondance est assez faible. La ressource actuellement disponible contient 3 315 paires de mots validées.

Abstract : Availability of morphological resources is an important and recurrent need because they allow the development of NLP tools and applications for a given language. Indeed, such resources provide basic information which are necessary for such tools for performing more sophisticated treatments (information retrieval, morpho-syntactic tagging, etc). We propose to acquire morphological resources for Ukrainian language, that is under-resourced at the time being. The method proposed exploits corpora in order to extract words that are related morphologically between them. The association strength between these words indicates their probability to have a morphological and semantic relation between them. We use three corpora (literary, medical and general-language) and evaluate the results obtained. According to corpora, precision varies between 67% and 86%. The results from different corpora are also compared, which shows that there is little redundancy between the copora. The currently available resource contains 3,315 validated pairs of words.

Mots clés : Ukrainien, langues peu dotées, corpus, morphologie, acquisition de ressources, méthodes non supervisées.

Keywords : Ukrainian, low-resourced languages, corpora, morphology, acquisition of resources, unsupervised methods.