talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

JAWS : Just Another WordNet Subset

Claire Mouton, Gaël de Chalendar

Résumé : WordNet, une des ressources lexicales les plus utilisées aujourd’hui a été constituée en anglais et les chercheurs travaillant sur d’autres langues souffrent du manque d’une telle ressource. Malgré les efforts fournis par la communauté française, les différents WordNets produits pour la langue française ne sont toujours pas aussi exhaustifs que le WordNet de Princeton. C’est pourquoi nous proposons une méthode novatrice dans la production de termes nominaux instanciant les différents synsets de WordNet en exploitant les propriétés syntaxiques distributionnelles du vocabulaire français. Nous comparons la ressource que nous obtenons avecWOLF et montrons que notre approche offre une couverture plus large.

Abstract : WordNet, one of the most used lexical resource until today has been made up for the English language and scientists working on other languages suffer from the lack of such a resource. Despite the efforts performed by the French community, the differentWordNets produced for the French language are still not as exhaustive as the original Princeton WordNet. We propose a new approach in the way of producing nominal terms filling the synset slots. We use syntactical distributional properties of French vocabulary to determine which of the candidates given by a bilingual dictionary matches the best. We compare the resource we obtain withWOLF and show that our approach provides a much larger coverage.

Mots clés : ressources lexicales françaises, WordNet, relations sémantiques, distributions syntaxiques

Keywords : French lexical resources, WordNet, semantic relations, syntactical distributionality