talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Construire un corpus monolingue annoté comparable Expérience à partir d’un corpus annoté morpho-syntaxiquement

Nicolas Hernandez

Résumé : Motivé par la problématique de construction automatique d’un corpus annoté morpho-syntaxiquement distinct d’un corpus source, nous proposons une définition générale et opérationnelle de la relation de la comparabilité entre des corpus monolingues annotés. Cette définition se veut indépendante du domaine applicatif. Nous proposons une mesure de la relation de comparabilité et une procédure de construction d’un corpus comparable. Enfin nous étudions la possibilité d’utiliser la mesure de la perplexité définie dans la théorie de l’information comme moyen de prioriser les phrases à sélectionner pour construire un corpus comparable. Nous montrons que cette mesure joue un rôle mais qu’elle n’est pas suffisante.

Abstract : This work is motivated by the will of creating a new part-of-speech annotated corpus in French from an existing one. In this context, we proprose a general and operational definition of the comparability relation between annotated monolingual corpora.We propose a comparability measure and a procedure to build semi-automatically a comparable corpus from a source one. We study the use of the perplexity (information theory motivated measure) as a way to rank the sentences to select for building a comparable corpus. We show that the measure can play a role but that it is not sufficient.

Mots clés : Corpus comparable, Corpus monolingue, Corpus annoté, Mesure de la comparabilité, Construction de corpus comparable, Analyse morpho-syntaxique

Keywords : Comparable corpus, Monolingual corpus, Annotated corpus,Measuring comparability, Building comparable corpus, Part-of-Speech tagging