talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Des Prompts aux Profils: Evaluation de la qualité des données générées par LLM pour la classification des soft skills

Elena Rozera, Nédra Mellouli-Nauwynck, Patrick Leguide, William Morcombe

Résumé : L’extraction automatique des soft skills à partir de CV constitue un enjeu central du Traitement Automatique du Langage Naturel (TALN) pour les ressources humaines. Toutefois, le manque de données annotées et les contraintes de confidentialité limitent le développement de modèles robustes. Cette étude préliminaire explore le potentiel des Grands Modèles de Langage (LLMs) pour générer des CV synthétiques dédiés à la classification des soft skills. Deux corpus sont proposés, un jeu de données de référence généré à partir de prompts explicites, et un corpus de CV complets produits selon une structure réaliste. Un cadre d’évaluation combinant des métriques avec et sans référence est mis en place, afin de mesurer la diversité, la redondance et la fidélité sémantique. Les résultats révèlent des compromis importants entre diversité lexicale et réalisme contextuel, apportant des pistes pour guider la génération future de données synthétiques pour la classification des compétences comportementales.

Mots clés : Extraction des Soft Skills, Génération de Données Synthétiques, Grands Modèles de Langage (LLMs), Classification de Texte, Évaluation de la Diversité des Données, Ingénierie de Prompts, Augmentation de Données pour le TALN