Apprentissage et Evaluation de Modèles de Langage par des Techniques de Correction d’Erreurs
Laurent Miclet, Jacques Chodorowski
Résumé : Cet article a pour but de décrire la mise au point et l’expérimentation de méthodes d’apprentissage de syntaxe à partir d’exemples positifs, en particulier pour des applications de Reconnaissance de la Parole et de Dialogue Oral. Les modèles syntaxiques, destinés à être intégrés dans une chaîne de traitement de la parole, sont extraits des données par des méthodes d’inférence grammaticale symbolique et stochastique. Ils sont fondés sur des techniques de correction d’erreurs dans les séquences. L’ensemble de ce travail a été réalisé dans le cadre du contrat 97- 1B-004 avec France-Telecom (Centre National d’Etudes des Télécommunications). Dans la première partie de cet article, nous rappellons les distances entre séquences basées sur des opérations élémentaires de correction d’erreur. Nous décrivons ensuite un algorithme classique d’inférence grammaticale fondé sur cette notion, et nous en proposons une amélioration. Nous abordons à cet endroit le problème de l’évaluation d’un concept appris seulement à partir d’exemples positifs, sans contre-exemples. Par la suite, le modèle syntaxique est étendu en attribuant des probabilités (apprises à partir des données) aux règles de la grammaire. On dispose dans ce cadre d’un outil d’évaluation de la qualité de l’apprentissage : la perplexité ; cependant pour obtenir des résultats significatifs, il faut être capable de probabiliser l’espace entier des séquences, ce qui implique de lisser la grammaire stochastique apprise. Une technique de lissage est proposée, qui permet alors d’évaluer l’apprentissage sur le corpus de données issues de l’expérimentation en dialogue oral.
Mots clés : Inférence grammaticale régulière, analyse corrective, évaluation du modèle de language