talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Impact de la structure logique des documents sur les modèles distributionnels : expérimentations sur le corpus TALN

Ludovic Tanguy, Cécile Fabre, Yoann Bard

Résumé : Nous présentons une expérience visant à mesurer en quoi la structure logique d’un document impacte les représentations lexicales dans les modèles de sémantique distributionnelle. En nous basant sur des documents structurés (articles de recherche en TAL) nous comparons des modèles construits sur des corpus obtenus par suppression de certaines parties des textes du corpus : titres de section, résumés, introductions et conclusions. Nous montrons que malgré des différences selon les parties et le lexique pris en compte, ces zones réputées particulièrement informatives du contenu d’un article ont un impact globalement moins significatif que le reste du texte sur la construction du modèle.

Mots clés : structure de document, analyse distributionnelle, corpus spécialisé.