talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Lingua Libre à l'ère de l'automatisation: l'I.A. au service du crowdsourcing d'un corpus oral

Camille Lavigne, Florian Cuny

Résumé : Lingua Libre, projet participatif collectant de la production orale, a amassé plus de 380 heures d'enregistrements, 1 350 000 fichiers audio, dans près de 300 langues différentes. Le potentiel d'un tel jeu de données pour tester des hypothèses linguistiques ou pour des tâches d'ASR est prometteur, mais diminué par le manque d'harmonisation et de nettoyage systématique des données. Ce travail est un pas supplémentaire vers un jeu de données issu de Lingua Libre de grande qualité et standardisé. Ce travail révèle des disparités récurrentes entre les enregistrements et la transcription qui en est fournie. Ces erreurs, bien que rares, sont régulières, et potentiellement évitables. En effet, le modèle d'ASR Wav2Vec 2.0-Base après affinage est capable de détecter une large part de ces erreurs. Il pourrait être un puissant outil à la disposition du contributorat, pour les assister à la tâche de patrouille.

Mots clés : Wav2Vec, affinage, transcription phonétique, crowdsourcing, automatisation, reconnaissance automatique de la parole