talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une étude empirique de la capacité de génération de paraphrases des (S/M)LMs

Quentin Lemesle, Jonathan Chevelu, Arnaud Delhay, Damien Lolive

Résumé : Les grands modèles de langue (LLMs) sont aujourd’hui largement utilisés pour des tâches d’augmentation de données, notamment via la génération de paraphrases. Cependant, ces modèles présentent un coût de calcul important et un impact environnemental non négligeable. Dans cet article, nous menons une étude empirique de la capacité de génération de paraphrases de différents modèles de langue de petites et moyennes tailles ((S/M)LMs), dans un cadre contrôlé. Nos résultats montrent que ces modèles sont capables de générer, sans exemples préalables, des paraphrases présentant une diversité lexicale significative.

Mots clés : génération, paraphrase, modèle de langue, corpus