talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction stochastique d'arbres d'analyse pour le modèle DOP

Jean-Cédric Chappelier, Martin Rajman

Résumé : Dans le cadre des approches à base de grammaires faiblement sensibles au contexte, cette contribution passe en revue le problème de l'extraction de l'arbre d'analyse le plus probable dans le modèle du Data-Oriented Parsing (DOP). Une démonstration formelle de l'utilisabilité des méthodes de Monte-Carlo est donnée, puis une technique d'échantillonnage contrôlée est développée permettant de garantir (avec un certain seuil de confiance fixé a priori) que l'arbre d'analyse sélectionné est bien l'arbre d'analyse le plus probable au sens de DOP. plus probable au sens de DOP.