talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Indexation automatique de ressources de santé à l’aide d’un vocabulaire contrôlé

Aurélie Névéol

Résumé : Nous présentons ici le système d’indexation automatique actuellement en cours de développement dans l’équipe CISMeF afin d’aider les documentalistes lors de l’indexation de ressources de santé. Nous détaillons l’architecture du système pour l’extraction de mots clés MeSH, et présentons les résultats d’une première évaluation. La stratégie d’indexation choisie atteint une précision comparable à celle des systèmes existants. De plus, elle permet d’extraire des paires mot clé/qualificatif, et non des termes isolés, ce qui constitue une indexation beaucoup plus fine. Les travaux en cours s’attachent à étendre la couverture des dictionnaires, et des tests à plus grande échelle sont envisagés afin de valider le système et d’évaluer sa valeur ajoutée dans le travail quotidien des documentalistes.

Abstract : This paper presents the automatic indexing system currently developed in the CISMeF team to assist human indexers. The system architecture, using the INTEX platform for MeSH term extraction is detailed. The results of a preliminary experiment indicate that the automatic indexing strategy is relevant, as it achieves a precision comparable to that of other existing operational systems. Moreover, the system presented in this paper retrieves keyword/qualifier pairs as opposed to single terms, therefore providing a significantly more precise indexing. Further development and tests will be carried out in order to improve the coverage, and validate the efficiency of the system in the librarians’ everyday work.

Mots clés : Indexation Automatique, Terminologie Médicale, Vocabulaire Contrôlé

Keywords : Automatic Indexing, Medical terminology, Controlled Vocabulary