talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction automatique de termes combinant différentes informations

Juan Antonio Lossio-Ventura, Clement Jonquet, Mathieu Roche, Maguelonne Teisseire

Résumé : Pour une communauté, la terminologie est essentielle car elle permet de décrire, échanger et récupérer les données. Dans de nombreux domaines, l’explosion du volume des données textuelles nécessite de recourir à une automatisation du processus d’extraction de la terminologie, voire son enrichissement. L’extraction automatique de termes peut s’appuyer sur des approches de traitement du langage naturel. Des méthodes prenant en compte les aspects linguistiques et statistiques proposées dans la littérature, résolvent quelques problèmes liés à l’extraction de termes tels que la faible fréquence, la complexité d’extraction de termes de plusieurs mots, ou l’effort humain pour valider les termes candidats. Dans ce contexte, nous proposons deux nouvelles mesures pour l’extraction et le “ranking” des termes formés de plusieurs mots à partir des corpus spécifiques d’un domaine. En outre, nous montrons comment l’utilisation du Web pour évaluer l’importance d’un terme candidat permet d’améliorer les résultats en terme de précision. Ces expérimentations sont réalisées sur le corpus biomédical GENIA en utilisant des mesures de la littérature telles que C-value.

Abstract : Comprehensive terminology is essential for a community to describe, exchange, and retrieve data. In multiple domain, the explosion of text data produced has reached a level for which automatic terminology extraction and enrichment is mandatory. Automatic Term Extraction (or Recognition) methods use natural language processing to do so. Methods featuring linguistic and statistical aspects as often proposed in the literature, rely some problems related to term extraction as low frequency, complexity of the multi-word term extraction, human effort to validate candidate terms. In contrast, we present two new measures for extracting and ranking muli-word terms from domain-specific corpora, covering the all mentioned problems. In addition we demonstrate how the use of the Web to evaluate the significance of a multi-word term candidate, helps us to outperform precision results obtain on the biomedical GENIA corpus with previous reported measures such as C-value.

Mots clés : Extraction Automatique de Termes, Mesure basée sur le Web, Mesure Linguistique, Mesure Statistique, Traitement Automatique du Langage Biomédical

Keywords : Automatic Term Extraction, Web-based measure, Linguistic-based measure, Statistic-based measure, Biomedical Natural Language Processing