talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Étiquetage en parties du discours de langues peu dotées par spécialisation des plongements lexicaux

Pierre Magistry, Anne-Laure Ligozat, Sophie Rosset

Résumé : Cet article présente une nouvelle méthode d’étiquetage en parties du discours adaptée aux langues peu dotées : la définition du contexte utilisé pour construire les plongements lexicaux est adaptée à la tâche, et de nouveaux vecteurs sont créés pour les mots inconnus. Les expériences menées sur le picard, le malgache et l’alsacien montrent que cette méthode améliore l’état de l’art pour ces trois langues peu dotées.

Mots clés : étiquetage en parties du discours, langues peu dotées.