talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Intonation et syntaxe: traitement automatique pour la synthèse de la parole

Piet Mertens

Résumé : Le tutoriel se propose de décrire comment, en synthèse à partir du texte, on exploite les informations syntaxiques pour générer une intonation "naturelle" (entendez: grammaticale et variée). Un premier volet présentera l'intonation du français sous plusieurs aspects: ses formes auditive (mélodie, accentuation, pauses, rythme) et acoustique, l'analyse interactive par (re)synthèse, avec des éléments de perception tonale. Quelques exercices de discrimination, de transcription et de production, et l'illustration d'outils d'analyse permettront de concrétiser ces notions. On proposera enfin un modèle abstrait de l'intonation (niveaux de hauteur, accents, tons, unités) qui débouche sur une esquisse de ses fonctions communicatives et pragmatiques. Le deuxième volet établit le rapport avec la syntaxe: Est-il possible d'aller de la syntaxe à l'intonation ? Quelles informations sont requises: structure de constituants, rapports de dépendance, autres propriétés ? Qu'est-ce que nous apprennent les cas de non-congruence ? Qu'en est-il de l'autonomie de l'intonation (ou sa priorité) ? Le dernier volet est consacré au TALN pour la synthèse à partir du texte, plus particulièrement au système Mingus pour la génération de l'intonation. Celui-ci comporte deux blocs majeurs: d'une part la génération d'une représentation symbolique de l'intonation à partir de l'arborescence syntaxique et de la phonétisation; d'autre part, le modèle mélodique et le modèle de durée, qui effectuent la conversion de cette notation symbolique en valeurs acoustiques, nécessaires pour le synthétiseur (MBROLA, de la Faculté Polytechnique de Mons). Grâce au caractère paramétrique du module mélodique, il est possible de contrôler certains aspects émotifs. L'entrée à Mingus consiste soit de la sortie de l'analyseur syntaxique FIPS (LATL, Université de Genève), soit d'une analyse syntaxique superficielle propre. Le choix de la représentation de la structure syntaxique (et sa conversion éventuelle) dépend des contraintes explicitées dans le deuxième volet.

Abstract : This tutorial describes how, in text-to-speech synthesis, syntactic information is used to generate natural intonation contours (i.e. which are grammatically correct and varied). A first part presents several aspect of French intonation: its auditory form (pitch, stress, pause, rhythm), its acoustic form, interactive analysis of intonation by (re)synthesis, as well as some notions of tonal perception. Some exercices in discrimination, transcription and production of pitch variations, and the illustration of analysis tools will help to provide a good understanding of these notions. Finally we briefly present an abstract model of French intonation (pitch levels, stress types, tones, units) and sketch its communicative and pragmatic functions. The second part studies the syntax-intonation interface: is it possible to predict intonation from syntactic structure ? What information is required: phrase structure, dependency relations, other properties ? What can be learned from cases of non-agreement ? Is intonation autonomous or anterior to syntax ? The last part deals with NLP for text-to-speech synthesis, more specifically in the Mingus system for intonation generation. There a two major blocks: first the generation of a symbolic representation of intonation, on the basis of the parse tree and grapheme-to-phoneme conversion; second the pitch model and the duration model which convert the symbolic representation into acoustic parameter values needed by the synthesizer (MBROLA, from Faculté Polytechnique de Mons). The parametric design of the pitch model allows for some control of emotional aspects. The input to Mingus is either the output of the full-blown syntactic parser FIPS (LATL, University of Geneva), or of Mingus' home-made shallow parser. The choice of syntactic representation (or its necessary conversion) stems from the constraints mentioned in the second part.