talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Recueil et analyse d’un corpus écologique de corrections orthographiques extrait des révisions de Wikipédia

Guillaume Wisniewski, Aurélien Max, François Yvon

Résumé : Dans cet article, nous introduisons une méthode à base de règles permettant d’extraire automatiquement de l’historique des éditions de l’encyclopédie collaborative Wikipédia des corrections orthographiques. Cette méthode nous a permis de construire un corpus d’erreurs composé de 72 483 erreurs lexicales (non-word errors) et 74 100 erreurs grammaticales (real-word errors). Il n’existe pas, à notre connaissance, de plus gros corpus d’erreurs écologiques librement disponible. En outre, les techniques mises en oeuvre peuvent être facilement transposées à de nombreuses autres langues. La collecte de ce corpus ouvre de nouvelles perspectives pour l’étude des erreurs fréquentes ainsi que l’apprentissage et l’évaluation des correcteurs orthographiques automatiques. Plusieurs expériences illustrant son intérêt sont proposées.

Abstract : This paper describes a French spelling error corpus we built by miningWikipedia revision history. This corpus contains 72,493 non-word errors and 74,100 real-word errors. To the best of our knowledge, this is the first time that such a large corpus of naturally occurring errors is collected and made publicly available, which opens new possibilities for the evaluation of spell checkers and the study of error patterns. In the second part of this work, a first study of french spelling error patterns and of the performance of a spell checker is presented.

Mots clés : ressources pour le TAL, correction orthographique, Wikipédia

Keywords : resources for NLP, spelling correction, Wikipedia