talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

LoX : outil polyvalent pour l'exploration de corpus annotés

Laurent Audibert

Résumé : Cet article présente une application permettant d'écrire des requêtes complexes sur des corpus étiquetés et de formater librement les résultats de ces requêtes. Le formalisme des requêtes est basé sur le principe des expressions régulières bien connu de la plupart des linguistes travaillant sur des corpus écrits. Contrairement à certains logiciels, qui ne permettent que l’extraction de concordances au format relativement figé, le formatage libre du résultat des requêtes permet leur réutilisation par des programmes ultérieurs et autorise une grande diversité d'applications, s'écartant largement du cadre des simples concordanciers.

Abstract : This paper describes a tool that enables complex queries on tagged corpora, and free formatting of the results. The formalism used is based on regular expressions, which are wellknown from most corpus linguists. As opposed to other software, the free formatting of the results enables re-use of the query results by additional tools, and proves useful for a wide range of applications well beyond that of simple concordance programs.

Mots clés : Corpus, Concordancier, TAL, Parser, Expression régulière

Keywords : Corpora, Concordancer, NLP, Parser, Regular expression