talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction automatique d'informations à partir de micro-textes non structurés

Cédric Vidrequin, Juan-Manuel Torres-Moreno, Jean-Jacques Schneider, Marc El-Bèze

Résumé : Nous présentons dans cet article une méthode d'extraction automatique d'informations sur des textes de très petite taille, faiblement structurés. Nous travaillons sur des textes dont la rédaction n'est pas normalisée, avec très peu de mots pour caractériser chaque information. Les textes ne contiennent pas ou très peu de phrases. Il s'agit le plus souvent de morceaux de phrases ou d'expressions composées de quelques mots. Nous comparons plusieurs méthodes d'extraction, dont certaines sont entièrement automatiques. D'autres utilisent en partie une connaissance du domaine que nous voulons réduite au minimum, de façon à minimiser le travail manuel en amont. Enfin, nous présentons nos résultats qui dépassent ce dont il est fait état dans la littérature, avec une précision équivalente et un rappel supérieur.

Abstract : In this article, we present a method of automatic extraction of informations on very small-sized and weakly structured texts. We work on texts whose drafting is not normalised, with very few words to characterize each information. Texts does not contain sentences, or only few. There are mostly about fragments of sentences or about expressions of some words. We compare several extracting methods, some completely automatic and others using an small domain knowledge. We want this knowledge to be minimalistic to reduce as much as possible any manual work. Then, we present our results, witch are better than those published in the literature, with an equivalent precision and a greater recall.

Mots clés : extraction automatique, micro-texte, texte non structuré, petites annonces

Keywords : automatique extraction, micro-text, unstructured text, adds