Apport des termes complexes pour enrichir l'analyse distributionnelle en domaine spécialisé
Merieme Bouhandi
Résumé : L’essor et les performances des modèles de sémantique distributionnelle sont principalement dus à l’accroissement de la quantité de données textuelles disponibles ainsi qu’à la généralisation des méthodes neuronales pour la construction de ces modèles. La qualité des représentations distribuées est souvent corrélée à la quantité de données disponibles et les corpus spécialisés, généralement d’une taille modeste, se trouvent de ce fait pénalisés. Alors que la plupart des modèles de sémantique distributionnelle traitent de mots isolés, nous partons de l’hypothèse que l’exploitation des termes, notamment complexes, est essentielle notamment en langue de spécialité car ils sont porteurs d’une dimension sémantique supplémentaire. Ainsi, nous évaluons une méthode de généralisation des contextes distributionnels par un mécanisme d’inclusion lexicale reposant sur les termes complexes. Nos différentes représentations distributionnelles sont ensuite confrontées à une tâche d’extraction de concepts médicaux à partir des rapports médicaux proposée par l’édition 2010 du challenge i2b2.
Mots clés : sémantique distributionnelle, inclusion lexicale, plongements de mots, extraction d’information.