talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Utilisation de contextes pour la correction automatique ou semi-automatique de réclamations clients

Philippe Suignard, Sofiane Kerroua

Résumé : Cet article présente deux méthodes permettant de corriger des réclamations contenant des erreurs rédactionnelles, en s’appuyant sur le graphe des voisins orthographiques et contextuels. Ce graphe est constitué des formes ou mots trouvés dans un corpus d’apprentissage. Un lien entre deux formes traduit le fait que les deux formes se « ressemblent » et partagent des contextes similaires. La première méthode est semi-automatique et consiste à produire un dictionnaire de substitution à partir de ce graphe. La seconde méthode, plus ambitieuse, est entièrement automatisée. Elle s’appuie sur les contextes pour déterminer à quel mot correspond telle forme abrégée ou erronée. Les résultats ainsi obtenus permettent d’améliorer le processus déjà existant de constitution d’un dictionnaire de substitution mis en place au sein d’EDF.

Abstract : This article presents two methods allowing correcting complaints containing spelling errors, by using the spelling and contextual neighbors' graph. This graph is made of forms or words found in a learning corpus. A link between two forms conveys the fact that the two forms ''look alike'' and share similar contexts. The first method is semi-automatic and consists in producing a substitutional dictionary from this graph. The second method, more ambitious, is fully automatic. It is based on contexts to determine to which word corresponds such abbreviated or erroneous form. The results thus obtained allow us to improve the existing process regarding the creation of a substitutional dictionary at EDF.

Mots clés : Correction automatique, analyse distributionnelle, graphe, contexte

Keywords : Spelling correction, distributional analysis, graph, context