talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction automatique de relations sémantiques d’hyperonymie et d’hyponymie dans un corpus métier

Camille Gosset, Mokhtar Boumedyen Billami, Mathieu Lafourcade, Christophe Bortolaso, Mustapha Derras

Résumé : Nous nous intéressons dans cet article à l’extraction automatique de relations sémantiques d’hyperonymie et d’hyponymie à partir d’un corpus de spécialités métier. Le corpus regroupe des ouvrages et articles en français d’expertise juridique et a été partiellement annoté en termes-clés par des experts. Nous prétraitons ces annotations afin de pouvoir les retrouver dans ce corpus et obtenir un concept général pour extraire les relations entre ces termes. Nous décrivons une étude expérimentale qui compare plusieurs méthodes de classification appliquées sur des vecteurs de relations construits à partir d’un modèle Word2Vec. Nous comparons les résultats obtenus grâce à un jeu de données construit à partir de relations d’hyperonymie tirées d’un réseau lexico-sémantique français que nous inversons pour obtenir les relations d’hyponymie. Nos résultats montrent que nous obtenons une classification pouvant atteindre un taux d'exactitude de 92 %.

Mots clés : Extraction de relations d’hyperonymie et d’hyponymie, Word2Vec, réseau lexicosémantique, apprentissage automatique, classification.