talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

L'optimisation du plongement de mots pour le français : une application de la classification des phrases

Jungyeul Park

Résumé : Nous proposons trois nouvelles méthodes pour construire et optimiser des plongements de mots pour le français. Nous utilisons les résultats de l’étiquetage morpho-syntaxique, de la détection des expressions multi-mots et de la lemmatisation pour un espace vectoriel continu. Pour l’évaluation, nous utilisons ces vecteurs sur une tâche de classification de phrases et les comparons avec le vecteur du système de base. Nous explorons également l’approche d’adaptation de domaine pour construire des vecteurs. Malgré un petit nombre de vocabulaires et la petite taille du corpus d’apprentissage, les vecteurs spécialisés par domaine obtiennent de meilleures performances que les vecteurs hors domaine.

Mots clés : Plongements de mots, catégorie grammaticale, expressions multi-mots, lemme, classification des phrases, français.