talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Word2Vec vs LSA pour la détection des erreurs orthographiques produisant un dérèglement sémantique en arabe

Chiraz Ben Othmane Zribi

Résumé : Les mots en arabe sont très proches lexicalement les uns des autres. La probabilité de tomber sur un mot correct en commettant une erreur typographique est plus importante que pour le français ou pour l’anglais. Nous nous intéressons dans cet article à détecter les erreurs orthographiques plus précisément, celles générant des mots lexicalement corrects mais causant un dérèglement sémantique au niveau de la phrase. Nous décrivons et comparons deux méthodes se basant sur la représentation vectorielle du sens des mots. La première méthode utilise l’analyse sémantique latente (LSA). La seconde s’appuie sur le modèle Word2Vec et plus particulièrement l’architecture Skip-Gram. Les expérimentations ont montré que Skip-Gram surpasse LSA.

Mots clés : Erreurs orthographiques, dérèglement sémantique, représentation vectorielle, LSA, Word2Vec, Skip-Gram, langue arabe.