talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Simplification automatique de texte dans un contexte de faibles ressources

Sadaf Abdul Rauf, Anne-Laure Ligozat, Francois Yvon, Gabriel Illouz, Thierry Hamon

Résumé : La simplification de textes a émergé comme un sous-domaine actif du traitement automatique des langues, du fait des problèmes pratiques et théoriques qu’elle permet d’aborder, ainsi que de ses nombreuses applications pratiques. Des corpus de simplification sont nécessaires pour entrainer des systèmes de simplification automatique ; ces ressources sont toutefois rares et n’existent que pour un petit nombre de langues. Nous montrons ici que dans un contexte où les ressources pour la simplification sont rares, il reste néanmoins possible de construire des systèmes de simplification, en ayant recours à des corpus synthétiques, par exemple obtenus par traduction automatique, et nous évaluons diverses manières de les constituer.

Mots clés : Simplification de textes, compression de texte, corpus synthétique, apprentissage par transfert cross-lingue.