talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Mot vide, mot plein ? Comment trancher localement

Frédérick Houben

Résumé : Nous présentons une méthode multilingue de catégorisation en mot vide / mot plein à partir de corpus brut. Cette méthode fait appel à des propriétés très générales des langues ainsi qu’à des techniques issues de la communauté de la fouille de données.

Abstract : We are presenting a NLP multilingual method for function word / content word categorization using no other resource than the raw text itself. This method uses very general linguistic properties and also engineering from data mining community.

Mots clés : Traitements multilingues, découverte de mots vides, alternative à une stop-list, extraction de règles et de motifs fréquents

Keywords : Multilingual NLP, function words discovery, stop-list alternation, rules and frequent pattern mining