talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Que recèlent les données textuelles issues du web ?

Adrien Barbaresi, Gaël Lejeune

Résumé : La collecte et l’usage opportunistes de données textuelles tirées du web sont sujets à une série de problèmes éthiques, méthodologiques et épistémologiques qui méritent l’attention de la communauté scientifique. Nous présentons des études empiriques de leur impact en linguistique et TAL centrées sur la forme (méthodes d’extraction des données) ainsi que sur le fond (contenu des corpus).

Mots clés : Construction de corpus, Science du web, Extraction de texte, Méthodes d’évaluation.