talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une approche intégrée pour la normalisation des extragrammaticalités de la parole spontanée

Mohamed-Zakaria Kurdi

Résumé : Dans cet article, nous présentons une nouvelle approche pour la normalisation des extragrammaticalités de la parole. La particularité de cène approche est l'intégration de différentes sources de connaissances de haut niveau, en particulier le lexique, la syntaxe et la sémantique. Ainsi, le traitement des extragrammaticalités se déroule suivant deux étapes : dans la première, le système normalise les Extragrammaticalités Lexicales (Eis) (hésitations, amalgames, etc.) et dans la deuxième, le système détecte et corrige les Extragrammaticalités Supra Lexicales (ESLs). Ce traitement est base sur des modèles de ESLs (règles et pattems) qui considèrent à la fois les informations syntaxiques et les informations structurales dans la détection et la correction des extragrammaticalités. De même, le système a été doté de patterns de contrôle ainsi que de grammaires sémantiques afin de réduire au maximum la surgénérativité. Les résultats de l'évaluation ont montré l'efficacité de notre approche à détecter et à corriger les extragrammaticalités tout en évitant les cas de surgénérativité.

Mots clés : parole, parole spontanée, extragrammaticalité lexicale, corpus, corpus d'apprentissage, information, information structurale