talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une évaluation approfondie de différentes méthodes de compositionalité sémantique

Antoine Bride, Tim Van de Cruys, Nicolas Asher

Résumé : Au cours des deux dernières décennies, de nombreux algorithmes ont été développés pour capturer la sémantique des mots simples en regardant leur répartition dans un grand corpus, et en comparant ces distributions dans un modèle d’espace vectoriel. En revanche, il n’est pas trivial de combiner les objets algébriques de la sémantique distributionnelle pour arriver à une dérivation d’un contenu pour des expressions complexes, composées de plusieurs mots. Notre contribution a deux buts. Le premier est d’établir une large base de comparaison pour les méthodes de composition pour le cas adjectif_nom. Cette base nous permet d’évaluer en profondeur la performance des différentes méthodes de composition. Notre second but est la proposition d’une nouvelle méthode de composition, qui est une généralisation de la méthode de Baroni & Zamparelli (2010). La performance de notre nouvelle méthode est également évaluée sur notre nouveau ensemble de test.

Abstract : In the course of the last two decades, numerous algorithms have sprouted up that successfully capture the semantics of single words by looking at their distribution in text, and comparing these distributions in a vector space model. However, it is not straightforward to construct meaning representations beyond the level of individual words – i.e. the combination of words into larger units – using distributional methods. Our contribution is twofold. First of all, we carry out a large scale evaluation, comparing different composition methods within the distributional framework for the case of adjective-noun composition, making use of a newly developed dataset. Secondly, we propose a novel method for adjective-noun composition, which is a generalization of the approach by Baroni & Zamparelli (2010). The performance of our novel method is equally evaluated on our new dataset.

Mots clés : sémantique lexicale, sémantique distributionnelle, compositionalité

Keywords : lexical semantics, distributional semantics, compositionality