talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Génération des corpus en dialecte tunisien pour la modélisation de langage d'un système de reconnaissance

Rahma Boujelbane

Résumé : Ces derniers temps, vu la situation préoccupante du monde arabe, les dialectes arabes et notamment le dialecte tunisien est devenu de plus en plus utilisé dans les interviews, les journaux télévisés et les émissions de débats. Cependant, cette situation présente des conséquences négatives importantes pour le Traitement Automatique du Langage Naturel (TALN): depuis que les dialectes parlés ne sont pas officiellement écrits et n’ont pas d’orthographe standard, il est très coûteux d'obtenir des corpus adéquats à utiliser pour des outils de TALN. Par conséquent, il n’existe pas des corpus parallèles entre l’Arabe Standard Moderne(ASM) et le Dialecte Tunisien (DT). Dans ce travail, nous proposons une méthode pour la création d’un lexique bilingue ASM–DT et un processus pour la génération automatique de corpus dialectaux. Ces ressources vont servir à la construction d’un modèle de langage pour les journaux télévisés tunisiens, afin de l’intégrer dans un Système de Reconnaissance Automatique de Parole (SRAP).

Abstract : Lately, given the serious situation in the Arab world, the Arab dialects such as Tunisian dialect became increasingly used and represented in the interviews, news and debate programs. However, this situation presents negative consequences for Natural Language Processing (NLP): Since dialects are not officially written and have no orthographic standard, it is very costly to obtain adequate corpora to train NLP tools. Therefore, it does not even exist parallel corpora between Standard Arabic (MSA) and Tunisian Dialect(TD). In this work, we propose a method for the creation of a bilingual lexicon MSA-TD and an automatic process for generating dialectal corpora. These resources will be used to build a language model for Tunisian news, in order to integrate it into an Automatic Speech Recognition (ASR).

Mots clés : Dialecte Tunisien, lexique ASM-DT, TDT: Tunisian Dialect Translator

Keywords : Tunisian Dialect, MSA-TD lexicon, TDT: Tunisian Dialect Translator