talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Hétérogénéïté des corpus : vers un parseur robuste, reconfigurable et adaptable

Nuria Gala Pavia

Résumé : L’analyse syntaxique robuste est devenue une technique essentielle à toute application qui touche au contenu des documents. Les analyseurs inscrits dans cette approche permettent d’extraire des informations d’ordre linguistique qui peuvent être exploitées postérieurement par des traitements linguistiques plus profonds ou par des systèmes de recherche d’information. Une des caractéristiques principales de ces outils est leur robustesse. Or, cette robustesse est souvent diminuée par la grande hétérogénéité de phénomènes linguistiques et extralinguistiques présents dans les textes tout-venant. Cet article présente tout d’abord (section 1) la notion de robustesse et caractérise (section 2) les systèmes d’analyse syntaxique robuste. L’article présente par la suite (section 3) un inventaire de phénomènes linguistiques et extralinguistiques non-standard attestés dans divers corpus et, finalement, (section 4) une architecture qui se propose de traiter ces phénomènes.