Apprentissage actif pour l'annotation morphosyntaxique du créole haïtien
Rayan Ziane, Maximin Coavoux, Benjamin Lecouteux, Emmanuel Schang
Résumé : Cet article présente une méthodologie pour l'étiquetage morphosyntaxique des transcriptions du corpus radiophonique Radio Haïti Inter (1300 heures) en créole haïtien parlé. Face au manque de données annotées pour l'oral, nous procédons d’abord à l’adaptation d’un modèle multilingue (XLM-RoBERTa) par pré-entraînement continué sur le corpus cible, puis à un premier affinage sur les treebanks Universal Dependencies existants. Nous évaluons une stratégie d'apprentissage actif guidée par une sélection des échantillons d'entraînement selon les scores de confiance du modèle (aléatoire, faible confiance, haute confiance) et deux stratégies d'affinage (séquentiel et joint). Les résultats montrent que l'adaptation au domaine est cruciale (gains de +4,3 points), que l'approche séquentielle surpasse l'affinage joint, mais que la sélection active n'apporte pas d'avantage significatif par rapport à un échantillonnage aléatoire. Nous mettons à disposition un échantillon annoté manuellement, un modèle de langue adapté au haïtien et un modèle d'étiquetage POS pour le haïtien parlé transcrit.
Mots clés : apprentissage actif, annotation morphosyntaxique, étiquetage POS, créole haïtien, corpus oral, adaptation au domaine, faible ressource