talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Annotation automatique des types de discours dans des livres audio en vue d’une oralisation par un système de synthèse

Aghilas Sini, Elisabeth Delais-Roussarie, Damien Lolive

Résumé : Pour synthétiser automatiquement et de manière expressive des livres audio, il est nécessaire de connaître le type des discours à oraliser. Ceci étant, dans un roman ou une nouvelle, les perspectives narratives et les types de discours évoluent souvent entre de la narration, du récitatif, du discours direct, du discours rapporté, voire des dialogues. Dans ce travail, nous allons présenter un outil qui a été développé à partir de l’analyse d’un corpus de livres audio (extraits de Madame Bovary et des Mystères de Paris) et qui prend comme unité de base pour l’analyse le paragraphe. Cet outil permet donc non seulement de déterminer automatiquement les types de discours (narration, discours direct, dialogue), et donc de savoir qui parle, mais également d’annoter l’extension des modifications discursives. Ce dernier point est important, notamment dans le cas d’incises de citation où le narrateur reprend la parole dans une séquence au discours direct. Dans sa forme actuelle, l’outil atteint un taux de 89 % de bonne détection.

Mots clés : types de discours, discours direct, incises, annotation automatique.