talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Étude inter-langues de la distribution et des ambiguïtés syntaxiques des pronoms

Lorenza Russo, Yves Scherrer, Jean-Philippe Goldman, Sharid Loáiciga, Luka Nerima, Éric Wehrli

Résumé : Ce travail décrit la distribution des pronoms selon le style de texte (littéraire ou journalistique) et selon la langue (français, anglais, allemand et italien). Sur la base d'un étiquetage morpho-syntaxique effectué automatiquement puis vérifié manuellement, nous pouvons constater que la proportion des différents types de pronoms varie selon le type de texte et selon la langue. Nous discutons les catégories les plus ambiguës de manière détaillée. Comme nous avons utilisé l'analyseur syntaxique Fips pour l'étiquetage des pronoms, nous l'avons également évalué et obtenu une précision moyenne de plus de 95%.

Abstract : This paper compares the distribution of pronouns according to the text genre (literary or news) and to the language (French, English, German and Italian). On the basis of manually verified part-of-speech tags, we find that the proportion of different pronoun types depends on the text and on the language. We discuss the most ambiguous cases in detail. As we used the Fips parser for the tagging of pronouns, we have evaluated it and obtained an overall precision of over 95%.

Mots clés : Pronoms, ambiguïté pronominale, étiquetage morpho-syntaxique

Keywords : Pronouns, pronominal ambiguity, part-of-speech tagging