talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

L’outil de traitement de corpus LIKES

François Rousselot

Résumé : LIKES (LInguistic and Knowledge Engineering Station) est une station d’ingénierie linguistique destinée à traiter des corpus, elle fonctionne pour l’instant sur la plupart des langues européennes et slaves en utilisant des ressources minimales pour chaque langue. Les corpus sont constitués d’un ou plusieurs textes en ASCII ou en HTML, l’interface donne la possibilité de constituer son corpus et d’y exécuter un certain nombre de tâches allant de simples tâches de découpage en mot, de tri ou de recherche de motifs à des tâches plus complexes d’aide à la synthèse de grammaire, d’aide au repérage de relations, d’aide à la construction d’une terminologie. Nous décrivons ici les principales fonctionnalités de LIKES en rapport avec le traitement des corpus et ce qui fait sa spécificité par rapport à d’autres environnements comparables : l’utilisation minimale de ressources linguistiques.

Abstract : LIKES (Llnguistic and Knowledge Engineering Station) is a linguistic engineering environment, build for corpora processing. Its provides different modules able to process most european and slavian languages. Corpora in Likes must be constituted by Texts in TXT format or in HTML texts of one particular. Tasks available are elementary likes classical basic corpora processing tasks (making list of forms, segmenting, sorting) and also more sophisticated as term extraction, help in relation extraction, pattern search, aimed at helping terminology building and ontology building. Main functionalities usefull for corpora processing are presented here.

Mots clés : Traitement de corpus, segments répétés, recherches de relations, automates, transducteurs

Keywords : Corpus processing, repeated segments, search of semantic relations, automata, transducers