talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Communication sur les travaux de Òsca-Font dubèrta

Dominique Château-Annaud

Résumé : Cette communication présente l’intégration de deux développements informatiques récents conçus comme des outils linguistiques et lexicographiques séparés. Cette intégration se concrétise en un outil original, une plate-forme d’édition numérique dont la notion sera précisée. Les deux projets sont implantés dans un site web et exploitent les données provenant de bases de données SQL. L’interface utilisateur est constitué de formulaires d’édition et de recherche, de tableaux en HTML et de rapports en différents formats. À l’origine les données proviennent de dictionnaires dialectaux, de listes de verbes, de modèles de conjugaison et d’autres informations annexes. L’ensemble est uniquement disponible dans un format faiblement structuré (traitement de texte WYSIWYG) impropre à un traitement numérique efficace, ce qui nécessite une conversion en base de données. Celle-ci a suscité beaucoup d’efforts et soulevé des contraintes méthodologiques et humaines. Pour le conjugueur automatique les algorithmes sont codés comme une hiérarchie de classes d’objets facile à adapter pour d’autres dialectes 1 et extensible à d’autres formats de sortie. Pour conclure nous évoquerons l’extension des capacités de la plate-forme vers les bases de données textuelles NoSQL et vers une architecture REST.

Abstract : This paper presents the integration of two recent IT developments designed to be two separated linguistic and lexicographical tools in an original one, a digital publishing platform, which concept will be described. Both projects are web applications, typically LAMP (Linux, Apache, MySql, PHP). The first one is designed to build a transdialectal lexical base. Data comes from dialectal dictionaries, verb lists, conjugation patterns and other related information to be converted in database. Despite the weakly structured format (WYSIWYG word processing) not usable for serious digital processing, the conversion populated a big lexical base. The conversion task drew a lot of efforts and raised methodological and human constraints. The second one is an automatic conjugator made from an easy to adapt object-oriented hierarchy for the lengadocian occitan dialect. One more dialect, gascon is available and wait to be tested. Provencal dialect is on study. Output formats extensions can be implemented by a loosely coupled coding. As a conclusion we will discuss the extension of the publishing platform capabilities geared to textual NoSql databases and REST architecture

Mots clés : plate-forme d’édition numérique, base de données NoSQL, outil lexicographique, conjugueur automatique, conception orientée-objet, lexique, dictionnaire

Keywords : digital publishing platform, NoSQL database, lexicographical tool, automatic conjugator, object-oriented design, glossary, dictionary.