talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Étude de méthodes d'augmentation de données pour la reconnaissance d'entités nommées en astrophysique

Atilla Kaan Alkan, Cyril Grouin, Pierre Zweigenbaum

Résumé : Dans cet article nous étudions l'intérêt de l'augmentation de données pour le repérage d'entités nommées en domaine de spécialité : l'astrophysique. Pour cela, nous comparons trois méthodes d'augmentation en utilisant deux récents corpus annotés du domaine : DEAL et TDAC, tous deux en anglais. Nous avons générés les données artificielles en utilisant des méthodes à base de règles et à base de modèles de langue. Les données ont ensuite été ajoutées de manière itérative pour affiner un système de détection d'entités. Les résultats permettent de constater un effet de seuil : ajouter des données artificielles au-delà d'une certaine quantité ne présente plus d'intérêt et peut dégrader la F-mesure. Sur les deux corpus, le seuil varie selon la méthode employée, et en fonction du modèle de langue utilisé. Cette étude met également en évidence que l'augmentation de données est plus efficace sur de petits corpus, ce qui est cohérent avec d'autres études antérieures. En effet, nos expériences montrent qu'il est possible d'améliorer de 1 point la F-mesure sur le corpus DEAL, et jusqu'à 2 points sur le corpus TDAC.

Mots clés : Repérage d'entités nommées, Augmentation de données, Annotation, Astrophysique