talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Normalisation de textes par analogie: le cas des mots inconnus

Marion Baranes, Benoît Sagot

Résumé : Dans cet article, nous proposons et évaluons un système permettant d’améliorer la qualité d’un texte bruité notamment par des erreurs orthographiques. Ce système a vocation à être intégré à une architecture complète d’extraction d’information, et a pour objectif d’améliorer les résultats d’une telle tâche. Pour chaque mot qui est inconnu d’un lexique de référence et qui n’est ni une entité nommée ni une création lexicale, notre système cherche à proposer une ou plusieurs normalisations possibles (une normalisation valide étant un mot connu dont le lemme est le même que celui de la forme orthographiquement correcte). Pour ce faire, ce système utilise des techniques de correction automatique lexicale par règle qui reposent sur un système d’induction de règles par analogie.

Abstract : Analogy-based Text Normalization : the case of unknowns words. In this paper, we describe and evaluate a system for improving the quality of noisy texts containing non-word errors. It is meant to be integrated into a full information extraction architecture, and aims at improving its results. For each word unknown to a reference lexicon which is neither a named entity nor a neologism, our system suggests one or several normalization candidates (any known word which has the same lemma as the spell-corrected form is a valid candidate). For this purpose, we use an analogybased approach for acquiring normalisation rules and use them in the same way as lexical spelling correction rules.

Mots clés : normalisation textuelle, correction orthographique, analogie

Keywords : Text normalization, Spell checking, Analogy