talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Création de ressources lexicales pour une langue d'oïl : le parlanjhe

Marie-Hélène Lay, Jean-Christophe Dourdet

Résumé : Le présent article porte sur la constitution de ressources lexicales pour le poitevin-saintongeais, langue régionale (très) faiblement dotée. Depuis 2006, le projet TelPoS (Textes Electroniques en poitevin-saintongeais) a permis la constitution d'une base de données de textes (essentiellement littéraires) caractérisés par une forte variation, tant diatopique que diachronique (le premier texte date du 16e siècle). Le parlanjhe est une langue d'oïl, donc morphologiquement proche du français : nous avons choisi d'adapter des ressources dont nous disposions pour le français, en intégrant à notre outil d'annotation un moteur d'expansion de requêtes basé sur des règles morpho-graphématiques, VariaLog. L'une des caractéristiques essentielles de ce projet est de se dérouler dans un environnement disposant de très peu de compétences informatiques, les stratégies les plus répandues en TAL se trouvant de ce fait exclues. Nous utilisons donc AnaLog, un outil d'annotation manuelle développé précisément pour répondre à cette situation.

Abstract : The topic of this paper is the constitution of lexical resources for poitevin-saintongeais, a regional language of western France, one of the “under-resourced languages”. Since 2006, the TELPOS Project (Electronic Texts in poitevinsaintongeais) has helped constitute a database of texts, mainly literary texts, characterized by a wide variation, both diatopic and diachronic (the first text dates back to the XVIth century). The “parlanjhe” is a language of the oïl area, and therefore morphologically close to French. We chose to adapt the lexical resources at our disposal for French by adding to our annotation tool an engine called VariaLog, to expand queries on the basis of morpho-graphemic rules. One of the crucial characteristics of this project is that it is evolving in an environment with very little computer knowhow. The most widespread strategies prevailing in computer linguistics are therefore out of reach. This is why we use AnaLog, a manual annotation tool developed precisely to answer the needs of such situations.

Mots clés : AnaLog, VariaLog, linguistique de corpus, annotation manuelle, annotation morpho-sytaxique, création de ressources lexicales, poitevin-saintongeais, parlanjhe

Keywords : AnaLog, VariaLog, corpus linguistic, manual annotation, POS tagging, building of lexical resources, poitevin-saintongeais, parlanjhe.