talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Vers les Sens et Au-delà : Induire des Concepts Sémantiques Avec des Modèles de Langue Contextuels

Bastien Liétard, Pascal Denis, Mikaela Keller

Résumé : La polysémie et la synonymie sont deux facettes cruciales et interdépendantes de l'ambiguïté lexicosémantique, mais elles sont souvent considérées indépendamment dans les problèmes pratiques en TAL. Dans cet article, nous introduisons l'induction de concepts, une tâche non-supervisée consistant à apprendre un partitionnement diffus de mots définissant un ensemble de concepts directement à partir de données. Cette tâche généralise l'induction du sens des mots (via l'appartenance d'un mot à de multiples groupes). Nous proposons une approche à deux niveaux pour l'induction de concepts, avec une vue centrée sur les lemmes et une vue globale du lexique. Nous évaluons le regroupement obtenu sur les données annotées de SemCor et obtenons de bonnes performances (BCubed-F1 supérieur à 0,60). Nous constatons que les deux niveaux sont mutuellement bénéfiques pour induire les concepts et les sens. Enfin, nous créons des plongements dits « statiques » représentant nos concepts induits et obtenons des performances compétitives par rapport à l'état de l'art en Word-in-Context.

Mots clés : Sémantique Lexicale, Induction de Sens, Synonymie, Polysémie