talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Projet des corpus écrits des langues manding : le bambara, le maninka

Valentin Vydrin

Résumé : Le projet des corpus électroniques de textes en langues mandingues a démarré à St. Petersbourg en 2009. Aujourd’hui, il est effectué par une équipe internationale avec l’implication des spécialistes en langues manding des pays différents. L’outillage tenant compte des caractéristiques spécifiques des langues manding (mais adaptable aux autres langues) a été développé. Le Corpus Bambara de Référence est mis en ligne en 2012, suivi par un corpus maninka (en écriture N’ko et latine) en février 2014. Un correcteur automatique d’orthographe bambara et un logiciel du ROC pour le bambara a été développé sur la base de l’outillage du CBR. L’utilisation expérimentale du CBR dans l’enseignement universitaire du bambara et dans les études linguistiques a montré son efficacité. L’expérience accumulée peut être facilement étendue sur les autres variétés manding (le dioula de RCI, le dioula de Burkina Faso), mais aussi sur d’autres langues africaines.