talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Procédures d’apprentissage endogène doublées de ressources exogènes : résolution en corpus d’une ambiguïté sur “de ”

Cécile Frérot

Résumé : Dans cette étude, nous nous intéressons à l’apport de ressources exogènes dans un analyseur syntaxique de corpus basé sur des procédures d’apprentissage endogène. Nous menons une expérience en corpus sur un cas d’ambiguïté catégorielle du français (forme de en position postverbale, article ou préposition). Après avoir présenté et évalué la stratégie endogène, nous en analysons les limites. Nous discutons ensuite la perspective d’une approche mixte combinant des informations acquises de manière endogène à des informations exogènes (données de sous-catégorisation verbale sur la préposition de). Nous montrons alors comment un apport maximal de ressources exogènes améliore les performances de l’analyseur (+8%, +15% sur les deux corpus évalués). Nous présentons les premiers résultats d’une approche mixte avant de conclure sur les orientations futures du travail.

Abstract : This paper addresses the issue of the contribution of exogenous resources within the framework of a parser, based on endogenous techniques. We discuss how exogenous resources could combine with endogenous techniques in the context of a POS French ambiguity (the word de, determiner or preposition). We present and evaluate our endogenous strategy on cases where verbs are adjacent to de. We highlight the limits of such a strategy and show how exogenous resources improve the parser output (+8%, +15% on the corpus evaluated). Finally, we present the first results of the combined strategy and conclude on future work.

Mots clés : analyse syntaxique automatique, approche endogène, ressource exogène, approche mixte, ambiguïté catégorielle

Keywords : automatic parsing, endogenous strategy, exogenous resources, hybrid approach, POS ambiguity