Analyse informatique du roman proustien "Du coté de chez Swann"

Katia Zellagui

Résumé : Dans le cadre du développement des environnements d’analyse linguistique, d’étiquetage de corpus et d’analyse statistique afin de traiter des corpus de grande taille, nous proposons de mettre au point des procédures nouvelles d’étiquetage morpho-syntaxique et sémantique. Nous présentons un ensemble de ressources linguistiques - dictionnaires et grammaires - dans le but d’étiqueter entièrement le roman proustien : « Du côté de chez Swann ». Notre recherche avance deux atouts majeurs : la précision des étiquettes attribuées aux formes linguistiques du texte ; et le repérage et étiquetage exhaustifs des mots composés.

Abstract : To deal with a great amount of corpus data within the framework of environmental development of linguistic analysis of corpus' tagging and statistic analysis, we propose to establish new procedures of syntactic and semantic tagging. We present some general linguistic resources, such as dictionary and grammar built-in the way to entirely tag the novel of Proust «Du côté de chez Swann». Our research leads to two main advantages: precise tagging assigned to linguistic forms of the text and identification and exhaustive tagging of compound nouns.

Mots clés : Automate fini, grammaire locale, dictionnaire électronique, étiquetage morpho-syntaxique, désambiguïsation, textes littéraires

Keywords : Finite state automata, local grammar, electronic dictionary, morpho-syntactic tagging, disambiguation, literary texts