talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Traitement des inconnus : une approche systématique de l’incomplétude lexicale

Helena Blancafort, Gaëlle Recourcé, Javier Couto, Benoît Sagot, Rosa Stern, Denis Teyssou

Résumé : Cet article aborde le phénomène de l’incomplétude des ressources lexicales, c’est-à-dire la problématique des inconnus, dans un contexte de traitement automatique. Nous proposons tout d’abord une définition opérationnelle de la notion d’inconnu. Nous décrivons ensuite une typologie des différentes classes d’inconnus, motivée par des considérations linguistiques et applicatives ainsi que par l’annotation des inconnus d’un petit corpus selon notre typologie. Cette typologie sera mise en oeuvre et validée par l’annotation d’un corpus important de l’Agence France-Presse dans le cadre du projet EDyLex.

Abstract : This paper addresses the incompleteness of lexical resources, i.e., the problem of unknown words, in the context of natural language processing. First, we put forward an operational definition of the notion of unknown words. Next, we describe a typology of the various classes of unknown words, motivated by linguistic and applicative considerations as well as the annotation of unknown words in a small-scale corpus w.r.t. our typology. This typology shall be applied and validated through the annotation of a large corpus from the Agence France-Presse as part of the EDyLex project.

Mots clés : mots inconnus, incomplétude lexicale, acquisition dynamique des ressources lexicales

Keywords : unknown words, lexical incompleteness, dynamic acquisition of lexical information