talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Régression logistique parcimonieuse pour l'extraction automatique de règles de grammaire

Santiago Herrera, Caio Corro, Sylvain Kahane

Résumé : Nous proposons une nouvelle approche pour extraire et explorer des motifs grammaticaux à partir de corpus arborés, dans le but de construire des règles de grammaire syntaxique. Plus précisément, nous nous intéressons à deux phénomènes linguistiques, l’accord et l’ordre des mots, en utilisant un espace de recherche étendu et en accordant une attention particulière au classement des règles. Pour cela, nous utilisons un classifieur linéaire entraîné avec une pénalisation L1 pour identifier les caractéristiques les plus saillantes. Nous associons ensuite des informations quantitatives à chaque règle. Notre méthode permet de découvrir des règles de différentes granularités, certaines connues et d’autres moins. Dans ce travail, nous nous intéressons aux règles issues d’un corpus du français.

Mots clés : extraction de grammaire,règles de grammaire,grammaire fondée sur des corpus,grammaire quantitative,régression logistique,pénalité L1