talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Les transducteurs à sorties variables

Denis Maurel, Jan Daciuk

Résumé : Dans le traitement automatique du langage naturel, les dictionnaires électroniques associent à chaque mot de l’information. La représentation informatique la plus efficace de ces dictionnaires utilise des machines à nombre fini d’états (automates ou transducteurs). Dans cet article, nous nous inspirons des algorithmes de construction directe d’un automate déterministe minimal pour proposer une nouvelle forme de transducteur. Cette nouvelle forme permet un calcul rapide des sorties associées aux mots, tout en étant plus compacte quant au nombre de transitions et de sorties distinctes, comme le montrent nos expérimentations.

Abstract : In natural language processing, dictionaries usually associate additional information with lexical entries. The most effective representation of dictionaries makes use of finite-state machines – either automata (recognizers) or transducers. In this paper, we draw our inspiration from algorithms to directly build the minimal deterministic automaton and we propose a new form of a transducer. This new form outperforms existing transducers in terms of speed while computing outputs and in terms of size calculated on the basis of the number of transitions and different outputs, as shown in our experiments.

Mots clés : automates à nombre fini d’états, transducteurs, dictionnaires électroniques

Keywords : finite state automata, transducers, electronic dictionaries