talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Disambiguating automatic semantic annotation based on a thesaurus structure

Véronique Malaisé, Luit Gazendam, Hennie Brugman

Résumé : La relation voir/employé pour d’un thesaurus est souvent plus complexe que la (para-)synonymie recommandée par l’ISO-2788, standard décrivant le contenu de ces vocabulaires contrôlés. Le fait qu’un non descripteur puisse renvoyer à plusieurs descripteurs (seuls les descripteurs sont pertinents dans le cadre de l’indexation contrôlée) fait que cette relation est complexe à utiliser dans un contexte d’annotation automatique : elle génère des cas d’ambiguité. Dans ce papier, nous présentons CARROT, un algorithme que nous avons mis au point pour classer les résultats de notre chaîne de traitements pour l’Extraction d’Information, et son utilisation dans le cadre de la sélection du descripteur pertinent lorsque plusieurs choix sont possibles. Cette sélection s’adresse à des documentalistes, dans le but de simplifier et d’accélérer leur travail, et se base sur la structure de leur thesaurus. Nous arrivons à un succès de 95 % dans nos suggestions ; nous discutons ces résultats et présentons des perspectives à cette expérimentation.

Abstract : The use/use for relationship a thesaurus is usually more complex than the (para-) synonymy recommended in the ISO-2788 standard describing the content of these controlled vocabularies. The fact that a non preferred term can refer to multiple preferred terms (only the latter are relevant in controlled indexing) makes this relationship difficult to use in automatic annotation applications : it generates ambiguity cases. In this paper, we present the CARROT algorithm, meant to rank the output of our Information Extraction pipeline, and how this algorithm can be used to select the relevant preferred term out of different possibilities. This selection is meant to provide suggestions of keywords to human annotators, in order to ease and speed up their daily process and is based on the structure of their thesaurus. We achieve a 95 % success, and discuss these results along with perspectives for this experiment.

Mots clés : désambiguisation sémantique, algorithme de classement, annotation automatique

Keywords : word sense disambiguation, ranking algorithm, automatic annotation