Une approche hybride traduction/correction pour la normalisation des SMS
Richard Beaufort, Sophie Roekhaut, Louise-Amélie Cougnon, Cédrick Fairon
Résumé : Cet article présente une méthode hybride de normalisation des SMS, à mi-chemin entre correction orthographique et traduction automatique. La partie du système qui assure la normalisation utilise exclusivement des modèles entraînés sur corpus. Evalué en français par validation croisée, le système obtient un taux d’erreur au mot de 9.3% et un score BLEU de 0.83.
Abstract : This paper presents a method of normalizing SMS messages that shares similarities with both spell checking and machine translation approaches. The normalization part of the system is entirely based on models trained from a corpus. Evaluated in French by ten-fold cross-validation, the system achieves a 9.3% Word Error Rate and a 0.83 BLEU score.
Mots clés : SMS, normalisation, machines à états finis, approche hybride, orienté traduction, orienté correction, apprentissage sur corpus
Keywords : SMS messages, normalization, finite-state machines, hybrid approach, machine translationlike, spell checking-like, corpus-based learning