talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Le corpus LN-ATALA : 25 ans d'annonces du traitement automatique des langues modérées et catégorisées

Rémi Cardon, Gaël Guibon

Résumé : LN-ATALA est une liste de diffusion consacrée aux annonces en traitement automatique du langage naturel (TALN). Créée en 1990 et parrainée par l’association française ATALA, elle constitue depuis plus de trente ans un important canal de communication pour la communauté. Une grande partie des e-mails envoyés aux abonnés depuis 1999 est disponible en ligne. Dans cet article, nous présentons cette liste et décrivons la construction d’un jeu de données exploitable rassemblant les e-mails envoyés entre 1999 et 2024, afin de faciliter l’analyse de l’évolution du domaine du TALN au fil du temps. La ressource comprend 17 824 e-mails, répartis en 21 catégories annotées, et sera librement mise à disposition pour un usage non commercial et maintenue dans le temps.

Mots clés : corpus, liste de diffusion, e-mails,classification