talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Le corpus « Machine Translation » : une exploration diachronique des (méta)données Istex

Mathilde Huguin, Sabine Barreaux

Résumé : Le corpus Machine Translation se compose de publications scientifiques issues du réservoir Istex. Conçu comme un cas d'usage, il permet d'explorer l'histoire de la traduction automatique au travers des métadonnées et des textes intégraux disponibles pour chacun de ses documents. D'une part, les métadonnées permettent d'apporter un premier regard sur le paysage de la traduction automatique grâce à des tableaux de bord bibliométriques. D'autre part, l'utilisation d'outils de fouille de textes sur le texte intégral rend saillantes des informations inaccessibles sans une lecture approfondie des articles. L'exploration du corpus est réalisée grâce à Lodex, logiciel open source dédié à la valorisation de données structurées.

Mots clés : Analyse de documents scientifiques, Visualisation des connaissances scientifiques, Jeux de données composés des textes scientifiques, Bibliométrie, scientométrie