talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Annotation des informations temporelles dans des textes en français

André Bittar

Résumé : Le traitement des informations temporelles est crucial pour la compréhension de textes en langue naturelle. Le langage de spécification TimeML a été conçu afin de permettre le repérage et la normalisation des expressions temporelles et des événements dans des textes écrits en anglais. L’objectif des divers projets TimeML a été de formuler un schéma d’annotation pouvant s’appliquer à du texte libre, comme ce que l’on trouve sur le Web, par exemple. Des efforts ont été faits pour l’application de TimeML à d’autres langues que l’anglais, notamment le chinois, le coréen, l’italien, l’espagnol et l’allemand. Pour le français, il y a eu des efforts allant dans ce sens, mais ils sont encore un peu éparpillés. Dans cet article, nous détaillons nos travaux actuels qui visent à élaborer des ressources complètes pour l’annotation de textes en français selon TimeML - notamment un guide d’annotation, un corpus de référence (Gold Standard) et des modules d’annotation automatique.

Abstract : The processing of temporal information is crucial for the understanding of natural language texts. The specification language TimeML was developed to facilitate the identification and normalization of temporal expressions and events in texts written in English. The aim of the various TimeML projects was to formulate an annotation scheme able to be applied to free text, such as that which is found on the Web, for example. Recently, efforts have been made to apply TimeML to languages other than English, namely Chinese, Korean, Italian, Spanish and German. Some efforts have been made in this direction with respect to French, but they remain somewhat scattered. In this paper, we detail our ongoing work, which aims to establish comprehensive resources for the annotation of French texts according to TimeML - an annotation guide, a Gold Standard corpus and modules for automatic annotation.

Mots clés : Annotation temporelle, repérage des événements, TimeML

Keywords : Temporal annotation, event recognition, TimeML