talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Apprentissage et Evaluation de Modèles de Langage par des Techniques de Correction d’Erreurs

Laurent Miclet, Jacques Chodorowski

Résumé : Cet article a pour but de décrire la mise au point et l’expérimentation de méthodes d’apprentissage de syntaxe à partir d’exemples positifs, en particulier pour des applications de Reconnaissance de la Parole et de Dialogue Oral. Les modèles syntaxiques, destinés à être intégrés dans une chaîne de traitement de la parole, sont extraits des données par des méthodes d’inférence grammaticale symbolique et stochastique. Ils sont fondés sur des techniques de correction d’erreurs dans les séquences. L’ensemble de ce travail a été réalisé dans le cadre du contrat 97- 1B-004 avec France-Telecom (Centre National d’Etudes des Télécommunications). Dans la première partie de cet article, nous rappellons les distances entre séquences basées sur des opérations élémentaires de correction d’erreur. Nous décrivons ensuite un algorithme classique d’inférence grammaticale fondé sur cette notion, et nous en proposons une amélioration. Nous abordons à cet endroit le problème de l’évaluation d’un concept appris seulement à partir d’exemples positifs, sans contre-exemples. Par la suite, le modèle syntaxique est étendu en attribuant des probabilités (apprises à partir des données) aux règles de la grammaire. On dispose dans ce cadre d’un outil d’évaluation de la qualité de l’apprentissage : la perplexité ; cependant pour obtenir des résultats significatifs, il faut être capable de probabiliser l’espace entier des séquences, ce qui implique de lisser la grammaire stochastique apprise. Une technique de lissage est proposée, qui permet alors d’évaluer l’apprentissage sur le corpus de données issues de l’expérimentation en dialogue oral.

Mots clés : Inférence grammaticale régulière, analyse corrective, évaluation du modèle de language