talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Transformations syntaxiques entre niveaux de simplification dans le corpus Newsela

Rita Hijazi

Résumé : La simplification de textes est une tâche complexe du traitement automatique des langues. Depuis quelques années, des corpus parallèles de textes originaux et simplifiés sont proposés, permettant d'apprendre différents types d'opérations de simplification à partir de corpus. Dans le but de pouvoir développer et évaluer des systèmes de simplification automatique de textes, cet article s’intéresse au corpus Newsela, un corpus parallèle de textes en langue anglaise avec quatre niveaux de simplification. Nous présentons en détail ce corpus et étudions les différentes transformations caractérisant le passage d’un niveau de simplification à l’autre sur un sous-ensemble de textes, en nous intéressant plus particulièrement aux transformations syntaxiques.

Mots clés : Corpus parallèle, simplification de textes, analyse du corpus.