talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Transformation d’annotations en parties du discours et lemmes vers le format Universal Dependencies : étude de cas pour l’alsacien et l’occitan

Aleksandra Miletić, Delphine Bernhard, Myriam Bras, Anne-Laure Ligozat, Marianne Vergez-Couret

Résumé : Cet article présente un retour d’expérience sur la transformation de corpus annotés pour l’alsacien et l’occitan vers le format CONLL-U défini dans le projet Universal Dependencies. Il met en particulier l’accent sur divers points de vigilance à prendre en compte, concernant la tokénisation et la définition des catégories pour l’annotation.

Mots clés : annotation, alsacien, occitan, Universal Dependencies.