talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Quel apport des unités polylexicales dans une formule de lisibilité pour le français langue étrangère

Thomas François, Patrick Watrin

Résumé : Cette étude envisage l'emploi des unités polylexicales (UPs) comme prédicteurs dans une formule de lisibilité pour le français langue étrangère. À l'aide d'un extracteur d'UPs combinant une approche statistique à un filtre linguistique, nous définissons six variables qui prennent en compte la densité et la probabilité des UPs nominales, mais aussi leur structure interne. Nos expérimentations concluent à un faible pouvoir prédictif de ces six variables et révèlent qu'une simple approche basée sur la probabilité moyenne des n-grammes des textes est plus efficace.

Abstract : This study considers the use of multi-words expressions (MWEs) as predictors for a readability formula for French as a foreign language. Using a MWEs extractor combining a statistical approach with a linguistic filter, we define six variables. These take into account the density and the probability of MWEs, but also their internal structure. Our experiments conclude that the predictive power of these six variables is low. Moreover, we show that a simple approach based on the average probability of n-grams is a more effective predictor.

Mots clés : Lisibilité du FLE, unités polylexicales nominales, modèles N-grammes

Keywords : Readability of FFL, nominal MWEs, N-grams models