talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Un corpus français arboré : quelques interrogations

Anne Abeillé, Lionel Clément, Alexandra Kinyon, François Toussenel

Résumé : Dans cet article nous présentons les premiers résultats de l’exploitation d’un Corpus français arboré (Abeillé et al., 2001). Le corpus comprend 1 million de mots entièrement annotés et validé pour les parties du discours, la morphologie, les mots composés et les lemmes, et partiellement annotés pour les constituants syntaxiques. Il comprend des extraits de journaux parus entre 1989 et 1993 et écrits par divers auteurs, et couvre différents thèmes (économie, littérature, politique, etc.). Après avoir expliqué comment ce corpus a été construit, et comment l’exploiter à l’aide d’un outil de recherche spécifique, nous exposerons quelques résultats linguistiques concernant les fréquences et les préférences lexicales et syntaxiques. Nous expliquerons pourquoi nous pensons que certains de ces résultats sont pertinents en linguistique théorique et en psycholinguistique.

Abstract : This paper presents the first linguistic results exploiting a new treebank for French (Abeillé et al., 2001). The corpus comprises 1 million words fully annotated and disambiguated for parts of speech, inflectional morphology, compounds and lemmas, and partially annotated with syntactic constituents. It is made of extracts from newspapers ranging from 1989 to 1993 and written by different authors, and covers a variety of subjects (economy, literature, politics, etc.). After explaining how this corpus was built, and how it can be used with a specific search tool, we present some linguistic results obtained when searching the corpus for lexical or syntactic frequencies and preferences, and explain why we think some of these results are relevant both for theoretical linguistics and psycholinguistics.

Mots clés : Corpus arboré, corpus journalistique, français, syntaxe

Keywords : Treebank, French, Newspaper corpora, syntax