talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

État de l’art des méthodes d’extraction automatique de termes-clés

Adrien Bougouin

Résumé : Cet article présente les principales méthodes d’extraction automatique de termes-clés. La tâche d’extraction automatique de termes-clés consiste à analyser un document pour en extraire les expressions (phrasèmes) les plus représentatives de celui-ci. Les méthodes d’extraction automatique de termes-clés sont réparties en deux catégories : les méthodes supervisées et les méthodes non supervisées. Les méthodes supervisées réduisent la tâche d’extraction de termes-clés à une tâche de classification binaire (tous les phrasèmes sont classés parmi les termesclés ou les non termes-clés). Cette classification est possible grâce à une phase préliminaire d’apprentissage, phase qui n’est pas requise par les méthodes non-supervisées. Ces dernières utilisent des caractéristiques (traits) extraites du document analysé (et parfois d’une collection de documents de références) pour vérifier des propriétés permettant d’identifier ses termes-clés.

Abstract : This article presents the state of the art of the automatic keyphrase extraction methods. The aim of the automatic keyphrase extraction task is to extract the most representative terms of a document. Automatic keyphrase extraction methods can be divided into two categories : supervised methods and unsupervised methods. For supervised methods, the task is reduced to a binary classification where terms are classified as keyphrases or non keyphrases. This classification requires a learning step which is not required by unsupervised methods. The unsupervised methods use features extracted from the analysed document (sometimes a document collection) to check properties which allow keyphrase identification.

Mots clés : extraction de termes-clés, méthodes supervisées, méthodes non-supervisées, état de l’art

Keywords : keyphrase extraction, supervised methods, unsupervised methods, state of the art