talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

DisMo : un annotateur multi-niveaux pour les corpus oraux

George Christodoulides, Giulia Barreca, Mathieu Avanzi

Résumé : Dans cette démonstration, nous présentons l'annotateur multi-niveaux DisMo, un outil conçu pour faire face aux spécificités des corpus oraux. Il fournit une annotation morphosyntaxique, une lemmatisation, une détection des unités poly-lexicales, une détection des phénomènes de disfluence et des marqueurs de discours.

Abstract : In this demonstration we present the multi-level automatic annotator DisMo which is specifically designed for the challenges posed by spoken language corpora. Its output comprises of part-of-speech tagging, lemmatization, multi-word unit detection, detection of disfluency phenomena and discourse markers.

Mots clés : annotation morphosyntaxique, corpus oraux, disfluences, unités poly-lexicales

Keywords : part-of-speech tagging, spoken corpora, disfluencies, multi-word expressions