Exploration de stratégies de prédiction de la complexité lexicale en contexte multilingue à l'aide de modèles de langage génératifs et d'approches supervisées.
Abdelhak Kelious
Résumé : Cet article explore des méthodes permettant de prédire automatiquement la complexité lexicale dans un contexte multilingue à l’aide de modèles avancés de traitement automatique du langage naturel. Plus précisément, il étudie l’utilisation de l’apprentissage par transfert et des techniques d’augmentation de données dans un cadre d’apprentissage supervisé, mettant en lumière l’intérêt notable des approches multilingues. Nous évaluons également le potentiel des grands modèles de langage génératifs pour la prédiction de la complexité lexicale. À travers différentes stratégies de requêtage (zero-shot, one-shot et prompts avec raisonnement en chaîne), nous analysons les performances des modèles dans plusieurs langues. Nos résultats montrent que, bien que les modèles génératifs obtiennent des performances prometteuses, leur qualité prédictive reste variable, et les modèles optimisés pour une tâche spécifique continuent de les surpasser lorsqu’ils disposent de données d’entraînement suffisantes.
Mots clés : Complexité lexicale, multilingue, modèles de langage génératifs, apprentissage supervisé, prompt engineering.