Retour d'expérience : l'utilisation de l'apprentissage profond (deep learning) dans le contexte de l'analyse sémantique des langues peu dotées
Hammou Fadili
Résumé : On estime à plusieurs milliers le nombre de langues parlées dans le monde et seulement quelques dizaines disposent de ressources (informatiques, textuelles, etc.) permettant leur traitement automatique. Celles ne disposant pas ou disposant de peu de ressources sont appelées langues peu dotées (LPD). Plusieurs rapports de l’UNESCO affirment que la plupart des langues peu dotées sont en voie de disparition. De plus, plusieurs spécialistes des langues, estiment que leur disparition est accélérée par les phénomènes informatiques (internet, réseaux sociaux, etc.) qui les marginalisent encore plus. Cependant, d’après les mêmes spécialistes, l’intégration des langues peu dotées dans le monde des nouvelles technologies pourrait constituer une opportunité pour leur développement, leur sauvegarde et donc pour leur survie. En effet, mettre à disposition des utilisateurs des outils les incitant à la découverte et à la création dans les LPD, aidées par des passerelles avec d’autres langues mieux dotées (LMD), telles que les fonctionnalités : de liens, d’alignement, de traduction, d’analyse et de synthèse, etc. pourrait avoir un impact positif sur la popularité de leur utilisation et par conséquent sur leur développement. Dans cet article, nous présentons une expérience exploitant les nouvelles technologies d’apprentissage profond dans le contexte de l’analyse sémantique des langues peu dotées. Le but est de montrer à travers un exemple d’approche qu’on peut exploiter certaines technologies facilement adaptables aux langues soufrant du manque de ressources en termes de contenus et d’outils informatiques ; espérant que cela pourra, en plus, aider à sensibiliser et à inciter les chercheurs du domaine à proposer des solutions génériques intégrant dans leur conception le support des LPD.
Mots clés : Langues peu dotées, apprentissage profond, modèles de langue, sémantique, représentations vectorielles des mots.