talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Vers la correction automatique de textes bruités: Architecture générale et détermination de la langue d’un mot inconnu

Marion Baranes

Résumé : Dans ce papier, nous introduisons le problème que pose la correction orthographique sur des corpus de qualité très dégradée tels que les messages publiés sur les forums, les sites d’avis ou les réseaux sociaux. Nous proposons une première architecture de correction qui a pour objectif d’éviter au maximum la sur-correction. Nous présentons, par ailleurs l’implémentation et les résultats d’un des modules de ce système qui a pour but de détecter si un mot inconnu, dans une phrase de langue connue, est un mot qui appartient à cette langue ou non.

Abstract : This paper deals with the problem of spell checking on degraded-quality corpora such as blogs, review sites and social networks. We propose a first architecture of correction which aims at reducing overcorrection, and we describe its implementation. We also report and discuss the results obtained thanks to the module that detects whether an unknown word from a sentence in a known language belongs to this language or not.

Mots clés : Correction automatique, détection de langue, données produite par l’utilisateur

Keywords : Spelling correction, language identification, User-Generated Content