talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Sparse Coverage : représentations par centres sémantiques pour la recherche de brevets

You Zuo, Kim Gerdes, Éric Villemonte de la Clergerie, Benoît Sagot

Résumé : La recherche d’antériorité dans les brevets est une tâche orientée vers le rappel, portant sur des documents techniques longs et fortement structurés. La recherche dense améliore l’appariement sémantique, mais les représentations à vecteur unique peuvent comprimer plusieurs composants, fonctions et contraintes techniques dans un seul embedding. Nous proposons Sparse Coverage, un cadre non supervisé de recherche sémantique qui projette des embeddings locaux de segments textuels vers un vocabulaire creux de centres dans l’espace des embeddings. Ces centres sont sélectionnés au moyen d’un objectif k-center orienté vers la couverture, et les segments activent les centres voisins afin de produire des représentations creuses compatibles avec la recherche par index inversé. Les expériences menées sur CLEF-IP 2013 montrent que Sparse Coverage atteint ou dépasse, dans plusieurs configurations, le rappel au niveau document de puissants encodeurs denses de brevets, tout en restant compétitif pour la recherche au niveau passage. En combinant des indices sémantiques locaux avec une recherche creuse par index inversé, Sparse Coverage constitue une approche efficace pour la première étape de la recherche de brevets.

Mots clés : représentation de documents, brevets, recherche d’antériorités, recherche creuse