talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Modélisation unifiée du document et de son domaine pour une indexation par termes-clés libre et contrôlée

Adrien Bougouin, Florian Boudin, Beatrice Daille

Résumé : Dans cet article, nous nous intéressons à l’indexation de documents de domaines de spécialité par l’intermédiaire de leurs termes-clés. Plus particulièrement, nous nous intéressons à l’indexation telle qu’elle est réalisée par les documentalistes de bibliothèques numériques. Après analyse de la méthodologie de ces indexeurs professionnels, nous proposons une méthode à base de graphe combinant les informations présentes dans le document et la connaissance du domaine pour réaliser une indexation (hybride) libre et contrôlée. Notre méthode permet de proposer des termes-clés ne se trouvant pas nécessairement dans le document. Nos expériences montrent aussi que notre méthode surpasse significativement l’approche à base de graphe état de l’art.

Mots clés : Indexation libre ; extraction de termes-clés ; indexation contrôlée ; assignement de termes-clés ; domaine de spécialité ; méthode à base de graphe ; ordonnancement conjoint.