Mot vide, mot plein ? Comment trancher localement
Frédérick Houben
Résumé : Nous présentons une méthode multilingue de catégorisation en mot vide / mot plein à partir de corpus brut. Cette méthode fait appel à des propriétés très générales des langues ainsi qu’à des techniques issues de la communauté de la fouille de données.
Abstract : We are presenting a NLP multilingual method for function word / content word categorization using no other resource than the raw text itself. This method uses very general linguistic properties and also engineering from data mining community.
Mots clés : Traitements multilingues, découverte de mots vides, alternative à une stop-list, extraction de règles et de motifs fréquents
Keywords : Multilingual NLP, function words discovery, stop-list alternation, rules and frequent pattern mining