talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Comment mesurer la couverture d'une ressource terminologique pour un corpus ?

Goritsa Ninova, Adeline Nazarenko, Thierry Hamon, Sylvie Szulman

Résumé : Cet article propose une définition formelle de la notion de couverture lexicale. Celleci repose sur un ensemble de quatre métriques qui donnent une vue globale de l'adéquation d'une ressource lexicale à un corpus et permettent ainsi de guider le choix d'une ressource en fonction d'un corpus donné. Les métriques proposées sont testées dans le contexte de l'analyse de corpus spécialisés en génomique : 5 terminologies différentes sont confrontées à 4 corpus. La combinaison des valeurs obtenues permet de discerner différents types de relations entre ressources et corpus.

Abstract : This paper proposes a formal definition of the notion of lexical coverage. This definition is based on four metrics that give a global view over a lexical resource to corpus relationship, thus helping the choice of a relevant resource with respect to a given corpus. These metrics have been experimented in the context of specialised corpus analysis in genomics. 5 terminologies have been confronted to 4 different corpora. The combination of resulting figures reflects various types of corpus vs . resource relationships.

Mots clés : couverture lexicale, terminologie, statistique lexicale

Keywords : lexical coverage, terminology, lexical statistics