talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Zodiac : Insertion automatique des signes diacritiques du français

Fabrizio Gotti, Guy Lapalme

Résumé : Nous proposons dans cette démonstration de présenter le logiciel Zodiac, permettant l’insertion automatique de diacritiques (accents, cédilles, etc.) dans un texte français. Zodiac prend la forme d’un complément Microsoft Word sous Windows permettant des corrections automatiques du texte au cours de la frappe. Sous Linux et Mac OS X, il est implémenté comme un programme sur ligne de commande, se prêtant naturellement à lire ses entrées sur un « pipeline » et écrire ses sorties sur la sortie standard. Implémenté en UTF-8, il met en oeuvre diverses librairies C++ utiles à certaines tâches du TAL, incluant la manipulation de modèles de langue statistiques.

Abstract : In this demo session, we propose to show how the software module Zodiac works. It allows the automatic insertion of diacritical marks (accents, cedillas, etc.) in text written in French. Zodiac is implemented as a Microsoft Word add-in under Windows, allowing automatic corrections as the user is typing. Under Linux and Mac OS X, it is implemented as a command-line utility, lending itself naturally to be used in a text-processing pipeline. Zodiac handles UTF-8, and showcases some useful C++ libraries for natural language processing, including statistical language modeling.

Mots clés : aide à la rédaction, diacritiques, modèles de langue probabilistes

Keywords : text editing, diacritical marks, statistical language models