talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Evaluation systématique d'une méthode commune de génération

Hugo Boulanger

Résumé : Avec l’augmentation de l’utilisation du traitement automatique des langues arrivent plusieurs problèmes dont l’absence de données dans les nouveaux domaines. Certaines approches d’apprentissage tel que l’apprentissage zero-shot ou par transfert tentent de résoudre ces problèmes. Une solution idéale serait de générer des données annotées à partir de bases de connaissances des domaines d’intérêt. Le but de notre travail est d’évaluer une méthode de génération simple et de trouver les critères permettant de la mettre en oeuvre correctement. Pour cela, nous comparons les performances d’un modèle obtenu sur des tâches d’annotation quand il est entraîné sur des données réelles ou sur des données générées. Grâce aux résultats obtenus et à des analyses effectuées sur les données, nous avons pu déterminer des bonnes pratiques d’utilisation de cette méthode de génération sur la tâche d’annotation.

Mots clés : TAL, augmentation de données, génération de données synthétiques.