talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Uniformisation de corpus anglais annotés en sens

Loïc Vial, Benjamin Lecouteux, Didier Schwab

Résumé : Pour la désambiguïsation lexicale en anglais, on compte aujourd’hui une quinzaine de corpus annotés en sens dans des formats souvent différents et provenant de différentes versions du Princeton WordNet. Nous présentons un format pour uniformiser ces corpus, et nous fournissons à la communauté l’ensemble des corpus annotés en anglais portés à notre connaissance avec des sens uniformisés du Princeton WordNet 3.0, lorsque les droits le permettent et le code source pour construire l’ensemble des corpus à partir des données originales.

Mots clés : désambiguïsation lexicale, corpus annotés en sens, ressource uniformisée.