talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Analyse automatique des noms déverbaux composés : pourquoi et comment faire interagir analogie et système de règles

Fiammetta Namer

Résumé : Cet article aborde deux problèmes d’analyse morpho-sémantique du lexique : (1) attribuer automatiquement une définition à des noms et verbes morphologiquement construits inconnus des dictionnaires mais présents dans les textes ; (2) proposer une analyse combinant règles et analogie, deux techniques généralement contradictoires. Les noms analysés sont apparemment suffixés et composés (HYDROMASSAGE). La plupart d’entre eux, massivement attestés dans les documents (journaux, Internet) sont absents des dictionnaires. Ils sont souvent reliés à des verbes (HYDROMASSER) également néologiques. Le nombre de ces noms et verbes est estimé à 5.400. L’analyse proposée leur attribue une définition par rapport à leur base, et enrichit un lexique de référence pour le TALN au moyen de cette base, si elle est néologique. L’implémentation des contraintes linguistiques qui régissent ces formations est reproductible dans d’autres langues européennes où sont rencontrés les mêmes types de données dont l’analyse reflète le même raisonnement que pour le français.

Abstract : This paper addresses two morpho-semantic parsing issues: (1) to automatically provide morphologically complex unknown nouns and verbs with a definition; (2) to propose a methodology combining both rules and analogy, which are techniques usually seen as inconsistent with eachother. The analysed nouns look like both suffixed and compounded (HYDROMASSAGE). Most of them are not stored in dictionaries, although they are very frequent in newspapers or online documents. They are often related to verbs (HYDROMASSER), also lacking from dictionaries. The estimated amount of these nouns and verbs is 5,400. The proposed analysis assigns them a definition calculated according to their base meaning, and it increases the existing reference lexicon content with this base, from the moment that it is a new-coined form. The implementation of linguistic constraints which govern this word formations is reproducible in other West-European languages, where the same data type is found, subject to the same kind of analysis.

Mots clés : Analyse morphologique, Annotation sémantique, Composition savante, Noms déverbaux, Règles, Analogie

Keywords : Morphological parsing, Semantic annotation, Neo-classical compounds, Deverbal nouns, Rules, Analogy