talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Construire des ressources collaboratives pour les langues peu dotées: une modélisation orientée communauté

Elvis Mboning, Ornella Wandji

Résumé : Les applications du traitement automatique des langues (TAL) nourrissent aujourd’hui une bonne partie des langues indo-européennes en raison des corpus linguistiques de qualité disponibles en grande quantité et variété. Les corpus de données open sources en langues africaines étant quasi inexistants, comment arrimer les avancées du TAL à ces langues peu dotées ? Dans cet article, nous examinons le problème de construction des ressources lexicographiques pour les langues peu dotées. Nous souhaitons introduire un modèle de construction des ressources lexicographiques en exploitant les compétences socio-linguistiques des communautés linguistiques locales. Au fil des sections, nous présenterons le nouveau modèle de codification des dictionnaires issue de cette modélisation orientée communauté.

Mots clés : Langues africaines, lexicographie électronique, NTeALan, modèle collaboratif, graphe, modèle basé sur la communauté.