talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Des représentations continues de mots pour l'analyse d'opinions en arabe: une étude qualitative

Amira Barhoumi, Nathalie Camelin et Yannick Estève

Résumé : Nous nous intéressons, dans cet article, à la détection d’opinions dans la langue arabe. Ces dernières années, l’utilisation de l’apprentissage profond a amélioré des performances de nombreux systèmes automatiques dans une grande variété de domaines (analyse d’images, reconnaissance de la parole, traduction automatique, . . .) et également celui de l’analyse d’opinions en anglais. Ainsi, nous avons étudié l’apport de deux architectures (CNN et LSTM) dans notre cadre spécifique. Nous avons également testé et comparé plusieurs types de représentations continues de mots (embeddings) disponibles en langue arabe, qui ont permis d’obtenir de bons résultats. Nous avons analysé les erreurs de notre système et la pertinence de ces embeddings. Cette analyse mène à plusieurs perspectives intéressantes de travail, au sujet notamment de la constitution automatique de ressources expert et d’une construction pertinente des embeddings spécifiques à la tâche d’analyse d’opinions.

Mots clés : Analyse d’opinion, représentation continue de mot, apprentissage profond, langue arabe.