talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

PolylexFLE : une base de données d'expressions polylexicales pour le FLE

Amalia Todirascu, Marion Cargill, Thomas Francois

Résumé : Nous présentons la base PolylexFLE, contenant 4295 expressions polylexicales. Elle est integrée dans une plateforme d’apprentissage du FLE, SimpleApprenant, destinée à l’apprentissage des expressions polylexicales verbales (idiomatiques, collocations ou expressions figées). Afin de proposer des exercices adaptés au niveau du Cadre européen de référence pour les langues (CECR), nous avons utilisé une procédure mixte (manuelle et automatique) pour annoter 1098 expressions selon les niveaux de compétence du CECR. L’article se concentre sur la procédure automatique qui identifie, dans un premier temps, les expressions de la base PolylexFLE dans un corpus à l’aide d’un système à base d’expressions régulières. Dans un second temps, leur distribution au sein de corpus, annoté selon l’échelle du CECR, est estimée et transformée en un niveau CECR unique.

Mots clés : expressions polylexicales vebales, niveau CECR, TAL pour la didactique du FLE.