talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Oublier ce qu'on sait, pour mieux apprendre ce qu'on ne sait pas : une étude sur les contraintes de type dans les modèles CRF

Nicolas Pécheux, Alexandre Allauzen, Thomas Lavergne, Guillaume Wisniewski, François Yvon

Résumé : Quand on dispose de connaissances a priori sur les sorties possibles d'un problème d'étiquetage, il semble souhaitable d'inclure cette information lors de l'apprentissage pour simplifier la tâche de modélisation et accélérer les traitements. Pourtant, même lorsque ces contraintes sont correctes et utiles au décodage, leur utilisation lors de l'apprentissage peut dégrader sévèrement les performances. Dans cet article, nous étudions ce paradoxe et montrons que le manque de contraste induit par les connaissances entraîne une forme de sous-apprentissage qu'il est cependant possible de limiter.

Abstract : When information about the possible outputs of a sequence labeling task is available, it may seem appropriate to include this knowledge into the system, so as to facilitate and speed-up learning and inference. However, we show in this paper that using such constraints at training time is likely to drastically reduce performance, even when they are both correct and useful at decoding. In this paper, we study this paradox and show that the lack of contrast induced by constraints leads to a form of under-fitting, that it is however possible to partially overcome.

Mots clés : Étiquetage Morpho-Syntaxique, Apprentissage Statistique, Champs Markoviens Aléatoires

Keywords : Part-of-Speech Tagging, Statistical Machine Learning, Conditional Random Fields