Peut-on bien chunker avec de mauvaises étiquettes POS ?
Isabelle Tellier, Iris Eshkol-Taravella, Yoann Dupont, Ilaine Wang
Résumé : Dans cet article, nous testons deux approches distinctes pour chunker un corpus oral transcrit, en cherchant à minimiser les étapes de correction manuelle. Nous ré-utilisons tout d’abord un chunker appris sur des données écrites, puis nous tentons de ré-apprendre un chunker spécifique de l’oral à partir de données annotées et corrigées manuellement, mais en faible quantité. L'objectif est d'atteindre les meilleurs résultats possibles pour le chunker en se passant autant que possible de la correction manuelle des étiquettes POS. Nos expériences montrent qu’il est possible d’apprendre un nouveau chunker performant pour l’oral à partir d’un corpus de référence annoté de petite taille, sans intervention sur les étiquettes POS.
Abstract : In this paper, we test two distinct approaches to chunk transcribed oral data, trying to minimize the phases of manual correction. First, we use an existing chunker, learned from written texts, then we try to learn a new specific chunker from a small amount of manually corrected labeled oral data. The purpose is to reach the best possible results for the chunker with as few manual corrections of the POS labels as possible. Our experiments show that it is possible to learn a new effective chunker for oral data from a labeled reference corpus of small size, without any manual correction of POS labels.
Mots clés : chunker, étiquetage POS, apprentissage automatique, corpus oral, disfluences
Keywords : chunker, POS labeling, machine learning, oral corpus, disfluencies