talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Les n-grams de caractères pour l'aide à l’extraction de connaissances dans des bases de données textuelles multilingues

Ismaïl Biskri, Sylvain Delisle

Résumé : Une véritable classification numérique multilingue est impossible si on considère seulement le mot comme unité d’information privilégiée. En traitant les mots comme jetons, la tokenisation s’avère relativement simple pour le français et l’anglais, mais très difficile pour des langues comme l’allemand ou l’arabe. D’autre part, la lemmatisation utilisée comme moyen de normalisation et de réduction du lexique constitue un écueil non moins négligeable. La notion de n-grams, qui depuis une décennie donne de bons résultats dans Pidentification de la langue ou dans l’analyse de l’oral, est, par les recherches récentes, devenue un axe privilégié dans l’acquisition et l’extraction des connaissances dans les textes. Dans cet article, nous présenterons un outil de classification numérique basé sur le concept de n-grams de caractères. Nous évaluons aussi les résultats de cet outil que nous comparons à des résultats obtenus au moyen d’une classification fondée sur des mots.

Abstract : Real multilingual numerical classification is impossible if only words are treated as the privileged unit of information. Although it makes tokenisation (in which words are considered as tokens) relatively easy in English or French, it makes it much more difficult for other languages such as German or Arabic. Moreover, lemmatisation, typically used to normalise and reduce the size of the lexicon, poses another challenge. The notion of n-grams which, for the last ten years, seems to have produced good results both in language identification and speech analysis, has recently become a privileged research axis in several areas of knowledge acquisition and extraction from text. In this paper, we present a text classification tool based on n-grams of characters and evaluate its results and compare them with those obtained from a different classification tool based solely on the processing of words.

Mots clés : classification numérique de textes, n-grams, multilinguisme