talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Informations spatio-temporelles et objets touristiques dans des pages Web : repérage et annotation

Stéphanie Weiser

Résumé : Cet article présente un projet de repérage, d'extraction et d'annotation d'informations temporelles, d'informations spatiales et d'objets touristiques dans des pages Web afin d'alimenter la base de connaissance d'un portail touristique. Nous portons une attention particulière aux différences qui distinguent le repérage d'information dans des pages Web du repérage d’informations dans des documents structurés. Après avoir introduit et classifié les différentes informations à extraire, nous nous intéressons à la façon de lier ces informations entre elles (par exemple apparier une information d’ouverture et un restaurant) et de les annoter. Nous présentons également le logiciel que nous avons réalisé afin d'effectuer cette opération d'annotation ainsi que les premiers résultats obtenus. Enfin, nous nous intéressons aux autres types de marques que l'on trouve dans les pages Web, les marques sémiotiques en particulier, dont l'analyse peut être utile à l’interprétation des pages.

Abstract : This paper presents a project for the detection, extraction and annotation of temporal and spatial information and of tourism objects in order to fill the knowledge base of a tourism Web portal. We focus on the differences that exist between extraction from structured documents and extraction from Web pages. First, the different types of information to extract are presented. We then discuss methods for linking these pieces of information together – for example relating the name of a restaurant to its opening hours – and how to annotate the extracted data. The program we have developed to perform the extraction and annotation, as well as an evaluation of this program, are presented here. Finally, we focus on the semiotic marks which appear on the Web and show they also prove useful in interpreting Web pages.

Mots clés : extraction d'information, annotation, informations spatio-temporelles, tourisme, pages Web

Keywords : information extraction, annotation, spatial & temporal information, tourism, Web pages