talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Impact du français inclusif sur les outils du TAL

Cyril Grouin

Résumé : Le français inclusif est une variété du français standard mise en avant pour témoigner d’une conscience de genre et d’identité. Plusieurs procédés existent pour lutter contre l’utilisation générique du masculin (coordination de formes féminines et masculines, féminisation des fonctions, écriture inclusive, et neutralisation). Dans cette étude, nous nous intéressons aux performances des outils sur quelques tâches du TAL (étiquetage, lemmatisation, repérage d’entités nommées) appliqués sur des productions langagières de ce type. Les taux d’erreur sur l’étiquetage en parties du discours (TreeTagger et spaCy) augmentent de 3 à 7 points sur les portions rédigées en français inclusif par rapport au français standard, sans lemmatisation possible pour le TreeTagger. Sur le repérage d’entités nommées, les modèles sont sensibles aux contextes en français inclusif et font des prédictions erronées, avec une précision en baisse.

Mots clés : Français inclusif, Traitement Automatique des Langues, Taux d’erreur.