talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Collecte de parole pour l’étude des langues peu dotées ou en danger avec l’application mobile LIG-AIKUMA

David Blachon, Elodie Gauthier, Laurent Besacier, Guy-Noël Kouarata, Martine Adda-Decker, Annie Rialland

Résumé : Nous rapportons dans cet article les travaux en cours portant sur la collecte de langues africaines peu dotées ou en danger. Une collecte de données a été menée à l’aide d’une version modifiée de l’application Android A IKUMA, initialement développée par Steven Bird et coll. (Bird et al., 2014). Les modifications apportées suivent les spécifications du projet franco-allemand ANR/DFG BULB 1 pour faciliter la collecte sur le terrain de corpus de parole parallèles. L’application résultante, appelée L IG -A IKUMA, a été testée avec succès sur plusieurs smartphones et tablettes et propose plusieurs modes de fonctionnement (enregistrement de parole, respeaking de parole, traduction et élicitation). Entre autres fonctionnalités, L IG -A IKUMA permet la génération et la manipulation avancée de fichiers de métadonnées ainsi que la prise en compte d’informations d’alignement entre phrases prononcées parallèles dans les modes de respeaking et de traduction. L’application a été utilisée aux cours de campagnes de collecte sur le terrain, au Congo-Brazzaville, permettant l’acquisition de 80 heures de parole. La conception de l’application et l’illustration de son usage dans deux campagnes de collecte sont décrites plus en détail dans cet article.

Mots clés : Collecte de données, application mobile, documentation de langues, corpus oraux.