talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Identification de termes flous et génériques dans la documentation technique : expérimentation avec l’analyse distributionnelle automatique

Émilie Merdy, Juyeon Kang, Ludovic Tanguy

Résumé : Cette étude se place dans le cadre du développement des ressources linguistiques utilisées par un système de vérification automatique de documentations techniques comme les spécifications. Notre objectif est d’étendre semi-automatiquement des classes de termes intrinsèquement flous ainsi que des termes génériques afin d’améliorer le système de détection de passages ambigus reconnus comme des facteurs de risque. Nous mesurons et comparons l’efficacité de méthodes d’analyse distributionnelle automatiques en comparant les résultats obtenus sur des corpus de taille et de degré de spécialisation variables pour une liste réduite de termes amorces. Nous montrons que si un corpus de taille trop réduite est inutilisable, son extension automatique par des documents similaires donne des résultats complémentaires à ceux que produit l’analyse distributionnelle sur de gros corpus génériques.

Mots clés : ambiguïté, documents techniques, risque industriel, Analyse Distributionnelle Automatique (ADA), ressources lexicales.