Modèles auto-supervisés de traitement de la parole pour le Créole Haitien
William N. Havard, Renauld Govain, Benjamin Lecouteux, Emmanuel Schang
Résumé : Nous développons des modèles de traitement de la parole spécifiquement dédiés au créole haïtien (kreyòl), le positionnant ainsi comme une langue bien dotée en termes de modèles auto-supervisés de traitement de la parole. Pour ce faire, nous pré-entraînons des modèles monolingues WAV2VEC2BASE,WAV2VEC2-L ARGE etDATA 2VEC-AUDIO -BASEà partir de zéro, qui sont ensuite affinés pour une tâche de reconnaissance automatique de la parole. Nous comparons la performance de ces modèles avec des modèles affinés à partir de modèles multilingues (XLSR-53, XLSR2-300 M, MMS-1B) et monolingues basés sur le français (LEBENCHMARK 1 à 7K). Nos résultats démontrent l'efficacité du pré-entraînement monolingue, avec des performances pouvant rivaliser, voire surpasser, celle de grands modèles multilingues. Ce travail propose ainsi des modèles robustes de reconnaissance vocale pour le kreyòl , adaptables à d'autres créoles français des Caraïbes, contribuant ainsi au développement technologique de ces langues peu dotées.
Mots clés : créole haïtien, modèles auto-supervisés, traitement de la parole