talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Introduction d’informations sémantiques dans un système de reconnaissance de la parole

Stephane Level, Irina Illina, Dominique Fohr

Résumé : Malgré les avancés spectaculaires ces dernières années, les systèmes de Reconnaissance Automatique de Parole (RAP) commettent encore des erreurs, surtout dans des environnements bruités. Pour améliorer la RAP, nous proposons de se diriger vers une contextualisation d’un système RAP, car les informations sémantiques sont importantes pour la performance de la RAP. Les systèmes RAP actuels ne prennent en compte principalement que les informations lexicales et syntaxiques. Pour modéliser les informations sémantiques, nous proposons de détecter les mots de la phrase traitée qui pourraient avoir été mal reconnus et de proposer des mots correspondant mieux au contexte. Cette analyse sémantique permettra de réévaluer (rescoring) les N meilleures hypothèses de transcription (N-best). Nous utilisons les embeddings Word2Vec et de BERT. Nous avons évalué notre méthodologie sur le corpus des conférences TED (TED-LIUM). Les résultats montrent une légère amélioration du taux d’erreur en mots en utilisant la méthodologie proposée.

Mots clés : reconnaissance automatique de la parole, contexte sémantique, embeddings, Word2Vec, BERT