MedInjection-FR : Exploration du rôle du type données dans l'ajustement par instructions biomédicales en français
Ikram Belmadani, Oumaima El Khettari, Benoit Favre, Richard Dufour
Résumé : L'ajustement par instructions est essentiel pour adapter les grands modèles de langue aux domaines spécialisés. En médecine, la rareté des ressources en français freine cette adaptation. Nous présentons MedInjection-FR, un jeu de données de 571\,436 paires instruction-réponse combinant trois sources: données natives, synthétiques et traduites. Une étude contrôlée sur Qwen-4B-Instruct montre que les données natives offrent les meilleures performances isolées, tandis que les configurations mixtes apportent des bénéfices complémentaires. L'évaluation par LLM-as-a-judge corrèle mieux avec l'expertise humaine que les métriques automatiques, tout en restant sensible à la verbosité.
Mots clés : Grands modèles de langue, ajustement par instructions, provenance des données