talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Outilex, plate-forme logicielle de traitement de textes écrits

Olivier Blanc, Matthieu Constant, Éric Laporte

Résumé : La plate-forme logicielle Outilex, qui sera mise à la disposition de la recherche, du développement et de l’industrie, comporte des composants logiciels qui effectuent toutes les opérations fondamentales du traitement automatique du texte écrit : traitements sans lexiques, exploitation de lexiques et de grammaires, gestion de ressources linguistiques. Les données manipulées sont structurées dans des formats XML, et également dans d’autres formats plus compacts, soit lisibles soit binaires, lorsque cela est nécessaire ; les convertisseurs de formats nécessaires sont inclus dans la plate-forme ; les formats de grammaires permettent de combiner des méthodes statistiques avec des méthodes fondées sur des ressources linguistiques. Enfin, des lexiques du français et de l’anglais issus du LADL, construits manuellement et d’une couverture substantielle seront distribués avec la plate-forme sous licence LGPL-LR.

Abstract : The Outilex software platform, soon available to research, development and industry, comprises software components implementing all the fundamental operations of written text processing, including processing without lexicons, exploitation of lexicons and grammars, and language resource management. All data are structured in XML formats, and more compact readable or binary formats, if required. The required format converters are included in the platform ; the grammar formats allow for statistical approaches to be combined with resource-based approaches. Manually constructed lexicons for French and English, originating from the LADL, with substantial coverage, will be distributed with the platform under LGPL-LR license.

Mots clés : analyse syntaxique, motifs lexico-syntaxiques, analyse lexicale, ressources linguistiques, formats d’échange, automates finis, réseaux de transitions récursifs

Keywords : syntactic parsing, lexico-syntactic patterns, lexical analysis, language resources, exchange formats, finite-state automata, recursive transition networks