talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

iHist et iScatter, outils en ligne d’exploration interactive de données : application aux valeurs aberrantes de f0 et de formants

Nicolas Audibert

Résumé : Les mesures aberrantes d’un point de vue statistique (outliers) doivent être traitées avec précaution, ce qui peut être compliqué en pratique lorsque la quantité de données devient importante. Afin de faciliter l’inspection des valeurs situées à la marge des distributions, nous proposons deux outils développés avec R/Shiny, disponibles sous forme d’applications en ligne utilisables par des non-spécialistes et distribués gratuitement sous licence GPL. Ces applications permettent de paramétrer la visualisation et d’explorer de façon interactive des distributions via des histogrammes, et les relations entre variables quantitatives via des nuages de points. Deux cas d’utilisation appliqués à des données de parole sont présentés pour illustrer les principales fonctionnalités de ces outils, à partir de mesures acoustiques extraites par Praat : l’ajustement des valeurs limites pour la détection automatique de la fréquence fondamentale, et l’identification de valeurs erronées de formants.

Mots clés : données,valeurs aberrantes,outils en ligne,exploration interactive,f0,formants