talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Language Processing with Weighted Transducers

Mehryar Mohri

Résumé : Les automates et transducteurs pondérés sont utilisés dans un éventail d’applications allant de la reconnaissance et synthèse automatiques de la langue à la biologie informatique. Ils fournissent un cadre commun pour la représentation des composants d’un système complexe, ce qui rend possible l’application d’algorithmes d’optimisation généraux tels que la déterminisation, l’élimination des mots vides, et la minimisation des transducteurs pondérés. Nous donnerons un bref aperçu des progrès récents dans le traitement de la langue à l’aide d’automates et transducteurs pondérés, y compris une vue d’ensemble de la reconnaissance de la parole avec des transducteurs pondérés et des résultats algorithmiques récents dans ce domaine. Nous présenterons également de nouveaux résultats liés à l’approximation des grammaires context-free pondérées et à la reconnaissance à l’aide d’automates pondérés.

Abstract : Weighted automata and transducers are used in a variety of applications ranging from automatic speech recognition and synthesis to computational biology. They give a unifying framework for the representation of the components of complex systems. This provides opportunities for the application of general optimization algorithms such as determinization, epsilon-removal and minimization of weighted transducers. We give a brief survey of recent advances in language processing with weighted automata and transducers, including an overview of speech recognition with weighted transducers and recent algorithmic results in that field. We also present new results related to the approximation of weighted context-free grammars and language recognition with weighted automata.

Keywords : automatic speech recognition, weighted finite-state transducers, weighted automata, context-free grammars, regular approximation of CFGs, rational power series