talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Évaluation de méthodes d’attribution de mots-clés standardisés à des résumés d’articles d’héliophysique

Liza Fretel, Corentin Louis, Baptiste Cecconi

Résumé : Cette étude s'intéresse à l'attribution de mots-clés issus des concepts de l'Unified Astronomy Thesaurus (UAT) à partir de titres et résumés d'articles dans le domaine astrophysique. Elle soulève des problématiques de classification multi-label extrême car les labels sont très épars (2411 labels possibles pour moins de dix labels positifs) et d'un manque de données d'entraînement qualitatives. Plusieurs méthodologies ont été évaluées : application du modèle KAILAS sur nos données ; entraînement d'un vectoriseur TF-IDF suivi d'une régression linéaire ; vectorisation des champs textuels des concepts UAT avec AstroBERT ; entraînement d'une architecture R-GCN~; correspondance de chaîne de caractères. Pour ces expériences, nous avons collecté un corpus de 34 025 résumés d'articles d'astrophysique. 5 361 de ces articles contenaient au moins un mot-clé sous le concept d'héliophysique. Nous avons aussi utilisé un petit corpus (31 documents) de résumés d'articles prépubliés dans notre sous-domaine d'intérêt (l'héliophysique) qui ont manuellement été annotés avec des mots-clés. Sur le corpus ADS héliophysique, KAILAS a obtenu le meilleur score F1 atteignant 0.5453 (contre 0.5006 pour le TF-IDF avec régression linéaire), et le TF-IDF avec régression linéaire a obtenu un score F1 de 0.6612 sur les prépublications d'héliophysique, contre 0.3612 pour KAILAS.

Mots clés : classification multi-labels extrême, suggestion de mots-clés, astrophysique