talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Un analyseur morphologique étendu de l'allemand traitant les formes verbales à particule séparée

Jean-Philippe Guilbaud, Christian Boitet, Vincent Berment

Résumé : Nous décrivons l’organisation et l'état courant de l’analyseur morphologique de l’allemand AMALD de grande taille couvrant (près de 103000 lemmes et 500000 formes fléchies simples, en croissance) développé dans le cadre du projet ANR-Émergence Traouiero. C’est le premier lemmatiseur de l’allemand capable de traiter non seulement les mots simples et les mots composés, mais aussi les verbes à particules séparables quand elles sont séparées, même par un grand nombre de mots (ex : Hier schlagen wir eine neue Methode für die morphologische Analyse vor).

Abstract : We describe the organisation and the current state of the large-scale (nearly 103000 lemmas and 500000 simple inflected forms, growing) morphological analyzer AMALD developed in the framework of the ANR-Émergence Traouiero project. It is the first lemmatizer of German able to handle not only simple and compound words, but also verbs with separable particles when they are separated, even by many words (e.g. Hier schlagen wir eine neue Methode für die morphologische Analyse vor.).

Mots clés : analyse morphologique, lemmatisation, allemand, verbes à particule séparable

Keywords : morphological analysis, lemmatization, German, verbs with separable particles