talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Similarité sémantique entre phrases : apprentissage par transfert interlingue

Charles Teissèdre, Thiziri Belkacem, Maxime Arens

Résumé : Dans cet article, nous décrivons une approche exploratoire pour entraîner des modèles de langue et résoudre des tâches d’appariement entre phrases issues de corpus en français et relevant du domaine médical. Nous montrons que, dans un contexte où les données d’entraînement sont en nombre restreint, il peut être intéressant d’opérer un apprentissage par transfert, d’une langue dont nous disposons de plus de ressources pour l’entraînement, vers une langue cible moins dotée de données d’entraînement (le français dans notre cas). Les résultats de nos expérimentations montrent que les modèles de langue multilingues sont capables de transférer des représentations d’une langue à l’autre de façon efficace pour résoudre des tâches de similarité sémantique telles que celles proposées dans le cadre de l’édition 2020 du Défi fouille de texte (DEFT).

Mots clés : Similarité Sémantique Textuelle, Modèles Neuronaux Multilingues, Apprentissage par transfert Interlingue.