talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

La "multi-extraction" comme stratégie d'acquisition optimisée de ressources terminologiques et non terminologiques

Blandine Plaisantin Alecu, Izabella Thomas, Julie Renahy

Résumé : A partir de l'évaluation d'extracteurs de termes menée initialement pour détecter le meilleur outil d'acquisition du lexique d'une langue contrôlée, nous proposons dans cet article une stratégie d'optimisation du processus d'extraction terminologique. Nos travaux, menés dans le cadre du projet ANR Sensunique, prouvent que la « multiextraction », c'est-à-dire la coopération de plusieurs extracteurs de termes, donne des résultats significativement meilleurs que l’extraction via un seul outil. Elle permet à la fois de réduire le silence et de filtrer automatiquement le bruit grâce à la variation d'un indice relatif au potentiel terminologique.

Abstract : Based on the evaluation of terminological extractors, initially to find the best tool for building a controlled language lexicon, we propose a strategy of optimized extraction of terminological resources. Our work highlights that the cooperation of several extraction tools gives better results than the use of a single one. It both reduces silence and automatically filters noise thanks to a variable related to termhood.

Mots clés : terminologie, extraction, langue contrôlée, potentiel terminologique, filtrage de termes

Keywords : terminology, extraction, controlled language, termhood, term filtering