Augmentation des données par LLM pour améliorer la détection automatique des erreurs de coordination
Chunxiao Yan, Iris Eshkol-Taravella, Sarah De Vogué, Marianne Desmets
Résumé : Afin d'améliorer les performances d'un outil de détection automatique des erreurs de coordination, cette étude explore l'utilisation de grands modèles de langage (LLM) pour remédier au déséquilibre des classes et à la limitation des données. En générant des phrases erronées simulées par un LLM pour former un corpus synthétique, nous améliorons la détection d'une classe sous-représentée ainsi que les performances globales du modèle. Nous étudions également l'application des LLM à l'annotation des données, avec pour objectif d'intégrer ces annotations à l'entraînement afin d'optimiser l'apprentissage du modèle.
Mots clés : erreur de coordination, apprentissage profond, corpus synthétique, LLM