talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Simulation de l’apprentissage des contextes nominaux/verbaux par n-grammes

Perrine Brusini, Pascal Amsili, Emmanuel Chemla, Anne Christophe

Résumé : On présente une étude d’apprentissage visant à montrer que les contextes locaux dans un corpus de parole adressée aux enfants peuvent être exploités, avec des méthodes statistiques simples, pour prédire la catégorie (nominale vs. verbale) d’un mot inconnu. Le modèle présenté, basé sur la mémorisation de n-grammes et sur une « graine sémantique » (un petit nombre de noms et verbes supposés connus et catégorisés) montre une excellente précision à toutes les tailles de graine sémantique, et un rappel plus faible, qui croît avec la taille de la graine sémantique. Les contextes les plus utilisés sont ceux qui contiennent des mots fonctionnels. Cette étude de faisabilité démontre que les très jeunes enfants pourraient exploiter les contextes de mots inconnus pour prédire leur catégorie syntaxique.

Abstract : A learning study is presented whose aim is to show that local contexts, in a child-directed speech corpus, can be exploited, with simple statistical methods, to predict the category (noun vs. verb) of unknown words. The model we present here is based on the memorisation of n-grams and on a “semantic seed” (a small number of nouns and verbs supposedly known and well categorised). It shows an excellent precision for every size of the semantic seed, and its recall grows along with the size of the semantic seed. The most useful contexts are the ones that include function words. This feasibility study shows that very young children could exploit the contexts of unknown words to predict their syntactic category.

Mots clés : apprentissage, modélisation de l’acquisition du langage, n-grammes

Keywords : learning, language acquisition modeling, n-gram