talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

At Last Parsing Is Now Operational

Gertjan van Noord

Résumé : Les systèmes de traitement du langage naturel qui combinent des méthodes basées sur les règles (connaissances explicitées) et celles basées sur les corpus deviennent suffisamment précis pour permettre leur utilisation dans des applications variées. Nous décrivons un système d’analyse syntaxique de ce type pour le néerlandais, appelé Alpino, et nous montrons la nécessité d’utiliser des méthodes basées sur l’utilsation des corpus en vue d’obtenir des analyseurs par règles fiables. Nous décrivons plus particulièrement un ensemble de cas où les résultats de l’analyseur sont exploités pour améliorer l’analyseur lui-même.

Abstract : Natural language analysis systems which combine knowledge-based and corpus-based methods are now becoming accurate enough to be used in various applications. We describe one such parsing system for Dutch, known as Alpino, and we show how corpus-based methods are essential to obtain accurate knowledge-based parsers. In particular we show a variety of cases where large amounts of parser output are used to improve the parser.

Mots clés : analyse syntaxique, méthodes à base de connaissances, méthodes basées sur corpus, Stochastic Attribute Value Grammar, question/réponses, error mining

Keywords : parsing, knowledge-based methods, corpus-based methods, Stochastic Attribute Value Grammar, question answering, error mining