talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Cross-lingual Word Sense Disambiguation for Predicate Labelling of French

Lonneke van der Plas, Marianna Apidianaki

Résumé : Nous abordons la question du transfert d’annotations sémantiques, et plus spécifiquement d’étiquettes sur les prédicats, d’une langue à l’autre sur la base de corpus parallèles. Des travaux antérieurs ont transféré ces annotations directement au niveau des tokens, conduisant à un faible rappel. Nous présentons une approche globale de transfert qui agrège des informations repérées dans l’ensemble du corpus parallèle. Nous montrons que la performance de la méthode globale est supérieure aux résultats antérieurs en termes de rappel sans trop affecter la précision.

Abstract : We address the problem of transferring semantic annotations, more specifically predicate labellings, from one language to another using parallel corpora. Previous work has transferred these annotations directly at the token level, leading to low recall. We present a global approach to annotation transfer that aggregates information across the whole parallel corpus.We show that this global method outperforms previous results in terms of recall without sacrificing precision too much.

Mots clés : transfert inter-langue, annotation sémantique automatique, prédicats, désambiguïsation lexicale, corpus parallèles

Keywords : cross-lingual transfer, automatic semantic annotation, predicates, Word Sense Disambiguation, parallel corpora