talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Apport de la structure de tours à l'identification automatique de genre textuel: un corpus annoté de sites web de tourisme en français

Remi Cardon, Trang Tran Hanh Pham, Julien Zakhia Doueihi, Thomas François

Résumé : Ce travail étudie la contribution de la structure de tours à l'identification automatique de genres textuels. Ce concept -- bien connu dansle domaine de l'analyse de genre -- semble être peu exploité dans l'identification automatique du genre. Nous décrivons la collecte d'un corpus de sites web francophones relevant du domaine du tourisme et le processus d'annotation avec les informations de tours. Nous menons des expériences d'identification automatique du genre de texte avec notre corpus. Nos résultats montrent qu'ajouter l'information sur la structure de tours dans un modèle améliore ses performances pour l'identification automatique du genre, tout en réduisant le volume de données nécessaire et le besoin en ressource de calcul.

Mots clés : identification automatique du genre de texte,analyse de genre,corpus,annotation