talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction de relations sémantiques entre noms et verbes au-delà des liens morphologiques

Cécile Fabre, Didier Bourigault

Résumé : Nous étudions les relations de proximité sémantique entre les noms et les verbes à partir de données calculées sur un corpus de 200 millions de mots par un programme d’analyse distributionnelle automatique. Nous exposons les résultats d’une méthode d’extraction de couples Nom/Verbe, qui combine un indice de proximité distributionnelle et un indice de cooccurrence : un couple est extrait si le nom et le verbe apparaissent avec les mêmes arguments sur l’ensemble du corpus, d’une part, et s’ils apparaissent au moins une fois dans un même paragraphe munis du même argument, d’autre part. L’article élabore une typologie des 1441 couples extraits et démontre l’intérêt de prendre en compte les couples non liés morphologiquement, qui constituent 70 % des données.

Abstract : In this paper, we study the semantic relations that hold between nouns and verbs. We benefit from the data provided by Upery, a program that automatically extracts word associations from a 200 million words corpus by means of distributional analysis. We present the results of an experiment in which noun-verb associations are extracted by crossing two criteria : distributional proximity and cooccurrence. The 1441 couples share the same arguments in the corpus and appear at least once with the same argument within the same paragraph. We present a typology of these noun-verb couples, showing the necessity to take into account non-mophologically related couples which amounts to 70 % of the data.

Mots clés : relations sémantiques, ressources lexicales, analyse distributionnelle

Keywords : semantic relations, lexical resources, distributional analysis