Analyse automatique d’espaces thématiques
Gilles Boyé, Anna Kupsc
Résumé : Basé sur les calculs d’entropie conditionnelle de (Bonami & Boyé, à paraître), nous proposons un analyseur automatique de la flexion dans le cadre de la morphologie thématique qui produit le graphe de régularités du paradigme. Le traitement se base sur un lexique de 6440 verbes extraits du BDLex (de Calmès & Pérennou, 1998) associés à leurs fréquences dans Lexique3 (New et al., 2001). L’algorithme se compose de trois éléments : calcul de l’entropie conditionnelle entre paires de formes fléchies, distillation des paradigmes, construction du graphe de régularités. Pour l’entropie, nous utilisons deux modes de calcul différents, l’un se base sur la distribution de l’effectif des verbes entre leurs différentes options, l’autre sur la distribution des lexèmes verbaux en fonction de leurs fréquences pour contrebalancer l’influence des verbes ultra-fréquents sur les calculs.
Abstract : Based on the entropy calculations of (Bonami & Boyé, à paraître), we propose an automatic analysis of inflection couched in the stem spaces framework. Our treatment is based on a lexicon of 6440 verbs present in BDLex (de Calmès & Pérennou, 1998) and associated with their frequencies from Lexique3 (New et al., 2001). The algorithm we propose consists in three steps : computing conditional entropy between all pairs of inflected forms, distilling the paradigms and constructing a regularity graph. For computing entropy, we use two methods : the first one is based on count of verbs in a given distribution whereas the second one takes into account the frequency of each verbal lemma in the distribution to compensate for the bias introduced by the ultra-frequent verbs in the calculation.
Mots clés : morphologie flexionnelle, espaces thématiques, graphe des régularité, français, verbes
Keywords : Inflectional morphology, stem spaces, regularity graph, French, verbs