talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Ambiguïté de rattachement prépositionnel : introduction de ressources exogènes de sous-catégorisation dans un analyseur syntaxique de corpus endogène

Didier Bourigault, Cécile Frérot

Résumé : Nous présentons les résultats d’expérimentations visant à introduire des ressources lexicosyntaxiques génériques dans un analyseur syntaxique de corpus à base endogène (SYNTEX) pour la résolution d’ambiguïtés de rattachement prépositionnel. Les données de souscatégorisation verbale sont élaborées à partir du lexique-grammaire et d’une acquisition en corpus (journal Le Monde). Nous présentons la stratégie endogène de désambiguïsation, avant d’y intégrer les ressources construites. Ces stratégies sont évaluées sur trois corpus (scientifique, juridique et journalistique). La stratégie mixte augmente le taux de rappel (+15% sur les trois corpus cumulés) sans toutefois modifier le taux de précision (~ 85%). Nous discutons ces performances, notamment à la lumière des résultats obtenus par ailleurs sur la préposition de.

Abstract : We report the results of experiments aimed at integrating general lexico-syntactic resources into a corpus syntactic parser (SYNTEX) based on endogenous learning. We tackle the issue of prepositional phrase attachment. We make use of both French lexico-syntactic resources and automatic acquisition to extract verb subcategorisation data. We describe both the endogenous and hybrid approaches and show how the latter improves the recall rate - +15% in average - but has no impact on the precision rate (~ 85%).

Mots clés : analyse syntaxique automatique, ambiguïté de rattachement prépositionnel, procédures endogènes, ressources exogènes, approche mixte

Keywords : automatic parsing, prepositional phrase attachement disambiguation, endogenous learning, exogenous resources, hybrid approach