Une méthode non-supervisée pour la segmentation morphologique et l’apprentissage de morphotactique à l'aide de processus de Pitman-Yor
Kevin Löser, Alexandre Allauzen
Résumé : Cet article présente un modèle bayésien non-paramétrique pour la segmentation morphologique non supervisée. Ce modèle semi-markovien s’appuie sur des classes latentes de morphèmes afin de modéliser les caractéristiques morphotactiques du lexique, et son caractère non-paramétrique lui permet de s’adapter aux données sans avoir à spécifier à l’avance l’inventaire des morphèmes ainsi que leurs classes. Un processus de Pitman-Yor est utilisé comme a priori sur les paramètres afin d’éviter une convergence vers des solutions dégénérées et inadaptées au traitemement automatique des langues. Les résultats expérimentaux montrent la pertinence des segmentations obtenues pour le turc et l’anglais. Une étude qualitative montre également que le modèle infère une morphotactique linguistiquement pertinente, sans le recours à des connaissances expertes quant à la structure morphologique des formes de mots.
Mots clés : Morphologie, Apprentissage non-supervisé, Modèles bayésiens non-paramétriques.