talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

SPQR@Deft2023: Similarité Sorbonne Pour les Systèmes de Question Réponse

Julien Bezançon, Toufik Boubehziz, Corina Chutaux, Oumaima Zine, Laurie Acensio, Ibtihel Ben Ltaifa, Nour El Houda Ben Chaabene, Caroline Koudoro-Parfait, Andrea Briglia, Gaël Lejeune

Résumé : Nous présentons le travail de SPQR (Sorbonne Question-Réponses) au DÉfi Fouille de Textes 2023 sur la réponse automatique à des questionnaires à choix multiples dans le domaine de la pharmacologie. Nous proposons une approche fondée sur la constitution de corpus de spécialité et la recherche de phrases similaires entre ces corpus et les différentes réponses possibles à une question. Nous calculons une similarité cosinus sur des vecteurs en n-grammes de caractères pour déterminer les bonnes réponses. Cette approche a obtenu un score maximal en Hamming de 0,249 sur les données de test (0,305 sur le dev) et de 0,0997 en Exact Match Ratio (0,16 sur le dev).

Mots clés : QCM français médical, similarité, n, grammes de caractères, correction automatique