talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Bien choisir son outil d'extraction de contenu à partir du Web

Gaël Lejeune, Adrien Barbaresi

Résumé : Nous proposons une démonstration sur l’extraction de contenu textuel dans des pages web ainsi que son évaluation. Nous nous concentrons sur les pages web contenant du texte (articles de presse, magazines en ligne et blogs) et montrons que les textes peuvent varier grandement selon différentes dimensions : diachronique, géographique et typologique. Dès lors, les outils et mesures d’évaluation correspondantes sont sujettes à caution : les indicateurs communément utilisés et censés présider au choix de l’outil approprié par les utilisateurs finaux sont à la fois imprécis et difficiles à interpréter.

Mots clés : Construction de Corpus, Extraction de Contenu, Nettoyage de Pages Web, Cleaneval.