talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

SELEXINI – un grand corpus français, divers et parsé automatiquement

Manon Scholivet, Agata Savary, Louis Estève, Marie Candito, Carlos Ramisch

Résumé : L'annotation de grands corpus de texte est essentielle pour de nombreuses tâches de Traitement Automatique des Langues. Dans cet article, nous présentons SELEXINI, un grand corpus français annoté automatiquement en syntaxe. Ce corpus est composé de deux parties : la partie BigScience, et la partie HPLT. Les documents de la partie HPLT ont été sélectionnés dans le but de maximiser la diversité lexicale du corpus total SELEXINI. Une analyse de l'impact de cette sélection sur la diversité syntaxique a été réalisée, ainsi qu'une étude de la qualité des nouveaux mots issus de la partie HPLT du corpus SELEXINI. Nous avons pu montrer que malgré l'introduction de nouveaux mots considérés comme intéressants (formes de conjugaison rares, néologismes, mots rares,...), les textes issus de HPLT sont extrêmement bruités. De plus, l'augmentation de la diversité lexicale n'a pas permis d'augmenter la diversité syntaxique.

Mots clés : Corpus arboré, Diversité, Syntaxe, Parsing Automatique, Échantillonnage.