talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Ajuster l’analyse distributionnelle à un corpus spécialisé de petite taille

Cécile Fabre, Nabil Hathout, Franck Sajous, Ludovic Tanguy

Résumé : L’analyse distributionnelle sur des corpus spécialisés de taille modeste constitue un objectif applicatif important pour cette famille de méthodes d’extraction des relations sémantiques. Dans ce cadre, nous cherchons à optimiser le calcul distributionnel pour traiter un corpus de 2 millions de mots composé d’articles de la conférence TALN. Notre expertise dans ce champ nous permet de constituer des données d’évaluation adaptées au corpus et à la tâche, et fait de cette configuration expérimentale un lieu idéal pour observer précisément les mécanismes distributionnels à l’œuvre. Un paramétrage précis du calcul distributionnel, depuis l’analyse syntaxique jusqu’aux mesures de proximité sémantique, met en évidence la variété des résultats obtenus, particulièrement selon les catégories grammaticales des mots cibles, et permet de dégager des combinaisons performantes en jouant sur le nombre, la nature et la qualité des contextes pris en compte dans le calcul.

Mots clés : Sémantique distributionnelle, analyse syntaxique, corpus spécialisé, évaluation.