Identification des noms sous-spécifiés, signaux de l’organisation discursive
Charlotte Roze, Thierry Charnois, Dominique Legallois, Stéphane Ferrari, Mathilde Salles
Résumé : Dans cet article, nous nous intéressons aux noms sous-spécifiés, qui forment une classe d’indices de l’organisation discursive. Ces indices ont été peu étudiés dans le cadre de l’analyse du discours et en traitement automatique des langues. L’objectif est d’effectuer une étude linguistique de leur participation à la structuration discursive, notamment lorsqu’ils interviennent dans des séquences organisationnelles fréquentes (e.g. le patron Problème-Solution). Dans cet article, nous présentons les différentes étapes mises en oeuvre pour identifier automatiquement ces noms en corpus. En premier lieu, nous détaillons la construction d’un lexique de noms sous-spécifiés pour le français à partir d’un corpus constitué de 7 années du journal Le Monde. Puis nous montrons comment utiliser des techniques fondées sur la fouille de données séquentielles pour acquérir de nouvelles constructions syntaxiques caractéristiques des emplois de noms sousspécifiés. Enfin, nous présentons une méthode d’identification automatique des occurrences de noms sous-spécifiés et son évaluation.
Abstract : In this paper, we focus on shell nouns, a class of items involved in the signaling of discourse organisation. These signals have been little studied in Natural Language Processing and within discourse analysis theories. The main goal is to study their participation to discourse organisation, especially when they occur in Problem-Solution patterns. In this paper, we present the different steps involved in shell nouns identification of these nouns. First, we present the lexical acquisition of shell nouns from a large corpus. Second, we show how a method based on the extraction of sequential patterns (sequential data mining techniques) allows to discover new syntactic patterns specific to the use of shell nouns. Finally, we present a shell nouns identification system that we evaluate.
Mots clés : noms sous-spécifiés, motifs séquentiels, structure discursive
Keywords : shell nouns, sequential patterns, discourse structure