talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Le contexte au service de la correction des graphies fautives arabes

Chiraz Ben Othmane Zribi, Mohamed Ben Ahmed

Résumé : Les mots arabes sont lexicalement beaucoup plus proches les uns des autres que les mots français et anglais. Cette proximité a pour effet un grand nombre de propositions à la correction d'une forme erronée arabe. Nous proposons dans cet article une méthode qui prend en considération le contexte de l'erreur pour éliminer certaines propositions données par le correcteur. Le contexte de l'erreur sera dans un premier temps les mots voisinant l'erreur et s'étendra jusqu'à l'ensemble des mots du texte contenant l'erreur. Ayant été testée sur un corpus textuel contenant des erreurs réelles, la méthode que nous proposons aura permis de réduire le nombre moyen de propositions d'environ 75% (de 16,8 à 3,98 propositions en moyenne).

Abstract : Arabic words are lexically closer to each other than can be English or French words. This proximity mainly results a great number of candidates given by a spelling corrector when processing an erroneous word. We address in this paper a new method aiming to reduce the number of proposals given by automatic Arabic spelling correction tools. We suggest the use of error's context in order to eliminate some correction candidates. Context will be nearby words and can be extended to all words in the text. Our method was tested on a corpus containing genuine errors and has yield good results. The average number of proposals has been reduced of about 75% (from 16,8 to 3,98 proposals on average).

Mots clés : Langue, Arabe, Erreur orthographique, Correction automatique, Contexte

Keywords : Language, Arabic, Misspelled word, Automatic correction, Context