talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Alignement de deux espaces sémantiques à des fins d’indexation automatique

Jean-François Chartier, Dominic Forest, Olivier Lacombe

Résumé : Cet article présente la méthode et les résultats de l’équipe de l’Université de Montréal à la 12e édition du Défi Fouille de Textes. La méthode développée repose sur une procédure d’apprentissage automatique supervisée. Elle est basée sur un espace sémantique des mots-clés d’indexation (ESMC) induit à partir de la base d’apprentissage et d’un espace sémantique de documents construit à partir de la base de test (ESD). La prédiction des mots-clés d’indexation pour un document de la base de test est réalisée en calculant la proximité entre les documents de l’ESD et les mots-clés de l’ESMC. Les k mots-clés les plus proches d’un document sont considérés être les mots-clés les plus pertinents pour son indexation.

Mots clés : Indexation automatique ; Espace sémantique ; Corrélation ; Assignation de motsclés ; apprentissage automatique