talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Un corpus multimodal alignant parole, transcription et séquences de pictogrammes dédié à la traduction automatique de la parole vers des pictogrammes

Cécile Macaire, Chloé Dion, Jordan Arrigo, Claire Lemaire, Emmanuelle Esperança-Rodier, Benjamin Lecouteux, Didier Schwab

Résumé : La traduction automatique de la parole vers des pictogrammes peut faciliter la communication entre des soignants et des personnes souffrant de troubles du langage. Cependant, il n'existe pas de formalisme de traduction établi, ni d'ensembles de données accessibles au public pour l'entraînement de systèmes de traduction de la parole vers des pictogrammes. Cet article présente le premier ensemble de données alignant de la parole, du texte et des pictogrammes. Ce corpus comprend plus de 230 heures de parole. Nous discutons de nos choix pour créer une grammaire adaptée à des séquences de pictogrammes. Cette dernière s'articule autour de règles et d'un vocabulaire restreint. La grammaire résulte d'une étude linguistique approfondie des ressources extraites du site Web d'ARASAAC. Nous avons ensuite validé ces règles à l'issue de multiples phases de post-édition par des annotateurs experts. Le corpus proposé est ensuite utilisé pour entraîner un système en cascade traduisant la parole vers des pictogrammes. L'ensemble du corpus est disponible gratuitement sur le site web d'Ortolang sous une licence non commerciale. Il s'agit d'un point de départ pour la recherche portant sur la traduction automatique de la parole vers des pictogrammes.

Mots clés : Pictogrammes,Reconnaissance Automatique de la Parole,Traduction Automatique