talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Proxem Studio : la plate-forme d’analyse sémantique qui transforme l’utilisateur métier en text scientist

Francois-Regis Chaumartin

Résumé : Proxem édite depuis 2011 une plate-forme d’analyse sémantique multilingue utilisé en entreprise pour de multiples usages : relation clients, ressources humaines, veille stratégique… La version la plus récente du logiciel, lancée en mars 2017, lève le principal goulet d’étranglement des outils classiques de text mining : un utilisateur métier devient enfin autonome pour définir lui-même les ressources linguistiques nécessaires à l’analyse sémantique d’un corpus donné. Une fois le corpus chargé, la plate-forme en extrait une terminologie et organise les termes en regroupements hiérarchisés de proto-concepts ; l’utilisateur n’a plus qu’à valider ces concepts au niveau de granularité qui lui semble pertinent pour constituer un extracteur d’entités nommées de granularité fine, adapté au corpus à traiter, avec un rappel élevé grâce à l’identification automatique des quasisynonymes. La plate-forme détecte aussi dans ces termes les homonymes potentiels et propose à l’utilisateur des contextes de désambiguïsation, fournissant ainsi une bonne précision.

Mots clés : entités nommées, catégorisation, désambiguïsation, apprentissage profond.