talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Affinés pour la réussite : Évaluation des représentations dans le domaine de la formation professionnelle

Alicia Breidenstein, Marguerite Leang, Matthieu Labeau

Résumé : Dans le domaine de la formation professionnelle et du marché du travail, les données sont souvent structurées sous forme de graphes avec attributs textuels, reliant les offres de formation, les CV et les ontologies de certifications et de compétences. Cette configuration présente des défis uniques, car ces données sont organisées selon une hiérarchie de milliers d’étiquettes de classification, et le graphe comporte de nombreuses liaisons manquantes. Avec la difficulté supplémentaire que représente le vocabulaire spécifique au domaine, il est nécessaire d’utiliser une représentation du texte à la fois adaptée et efficace. Dans ce travail, nous évaluons un large éventail de représentations de texte, allant des représentations symboliques aux grands modèles de langue, sur des tâches réelles appliquées à notre jeu de données interne. Nous montrons que les représentations lexicales offrent les meilleures performances sans affinage, mais que les modèles basés sur BERT dominent une fois affinés sur des données spécifiques au domaine. En revanche, les LLM utilisés avec des instructions génératives directes sous-performent, limités par la complexité structurelle des données et le vocabulaire spécifique, et atteignent des performances comparables à celles des modèles basés sur BERT lorsqu'ils sont affinés sur le jeu de données.

Mots clés : cas d'usage industriel, domaine de la formation professionnelle, affinage