LiLA : Outil d'augmentation automatisée des données vocales participatives de Lingua Libre

Mathilde Hutin, Marc Allassonnière-Tang, Lucas Prégaldiny, Lucas Lévêque

Résumé : La constitution de corpus vocaux, nécessaires à l'exploration de la phonétique et de la phonologie des langues du monde, soulève de nombreux défis. La constitution de corpus multi-dialectes, permettant d'explorer la variation dialectale, ou de corpus multilingues, permettant de comparer plusieurs langues, est d'autant plus difficile que, pour que chaque dialecte /langue soit comparable aux autres dans le corpus, les données doivent avoir été enregistrées dans les mêmes conditions (même matériel, même protocole …). Une solution à ces défis semble envisageable aujourd'hui grâce aux données participatives, par définition administrées et enregistrées par des volontaires, et donc moins coûteuses à tous points de vue pour la communauté scientifique. En mars 2025, Lingua Libre, la médiathèque linguistique participative de Wikimédia France ouverte depuis 2018, compte ~1,4M enregistrements en 284 langues par 2.547 individus à travers le monde : notre projet est de créer un outil pour rendre ces données brutes exploitables par les linguistes.

Mots clés : Lingua Libre, Wikimedia, Données participatives, Phonétique, Phonologie, Typologie

Téléchargement :
[article]
[bibtex]

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

LiLA : Outil d'augmentation automatisée des données vocales participatives de Lingua Libre

Mathilde Hutin, Marc Allassonnière-Tang, Lucas Prégaldiny, Lucas Lévêque