Extraction terminologique : vers la minimisation de ressources
Yuliya Korenchuk
Résumé : Cet article présente une méthode ayant pour objectif de minimiser l’apport extérieur nécessaire à la tâche d’extraction terminologique (ET) et de rendre cette tâche moins dépendante de la langue. Pour cela, la méthode prévoit des ressources morphologiques et morphosyntaxiques simplifiées construites directement à partir d’un corpus lemmatisé. Ces ressources endogènes servent à la création d’un système de filtres qui affinent les calculs statistiques et à la génération de patrons pour l’identification de candidats termes polylexicaux. La méthode a été testée sur deux corpus comparables en chimie et en télécommunication, en français et en anglais. La précision observée sur les 100 premiers candidats termes monolexicaux fluctue entre 71% et 87% pour le français et entre 44 % et 69 % en anglais ; celle des candidats termes polylexicaux s’élève à 69-78 % en français et 69-85 % en anglais en fonction du domaine.
Abstract : The article presents the method which aims to minimize the use of external resources for the terminology extraction task and to make this task less langage dependent. For that purpose, the method builds simplified morphological and morphosyntactic resources directly from a lemmatized corpus. These endogenous resources are used both in filters, which refine the statistical calculations, and in patterns for polylexical terms identification. The method was tested on two comparable corpora in chemistry and in telecommunication in French and in English. The precision observed on the first 100 monolexical terms fluctuates between 71% and 87% for French and between 44% and 69% in English ; for polylexical terms the precision was 69-78% in French and 69-85% in English depending on the domain.
Mots clés : extraction terminologique, ressources endogènes, apprentissage automatique
Keywords : terminology extraction, endogenous resources, machine learning