talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Stocker des Mots ne Garantit nullement leur Accès

Michael Zock, Didier Schwab

Résumé : L’objectif de ce papier est double : (a) montrer que le stockage ou la mémorisation d’une forme lexicale ne garantit nullement son accès ou sa disponibilité, et (b) décrire les étapes nécessaires pour construire une ressource susceptible d’aider les rédacteurs à trouver le mot bloqué sur le bout de leur langue (ou de leur plume). Pour vérifier le premier point, nous avons réalisé une petite expérience en comparant deux ressources pour voir si elles nous permettaient de trouver le terme recherché (mot cible) et si l’accès était facile. Les ressources en question sont WordNet, ou plutôt une version étendue, eXtended WordNet (xWN) et Wikipedia (WP), converti par nous en une ressource lexicale, nommée WordFinder (WF). Il s’avère que cette dernière ressource permet généralement à trouver assez rapidement le terme recherché, alors que xWN y échoue souvent, ou lorsqu’il y parvient, l’élément en question se trouve assez loin dans la liste des candidats. Ceci paraît surprenant dans la mesure où les deux ressources ‘possèdent’ le même vocabulaire. Cependant la situation devient vite assez claire lorsqu’on regarde les liens entre les mots (l’index ou l’organisation lexicale) des deux ressources. Contrairement à WN, WF contient beaucoup de liens syntagmatiques (café-noir ; café-Brésil ; café-Starbucks,...), permettant de ce fait d’accéder au mot cible par un bien plus grand nombre de mots source. Ayant montré que ‘stockage’ n’implique pas forcément ‘accès’ ou disponibilité, nous présentons ensuite une feuille de route, esquissant les éléments à élaborer pour construire une ressource susceptible d’aider des rédacteurs à trouver le mot bloqué sur le bout de la langue. La construction de notre future ressource est basée sur les raisonnement suivants. L’accès lexical consiste essentiellement à localiser un élément parmi l’ensemble des formes lexicales stockées dans la ressource lexicale (dictionnaire). Comme il est déraisonnable de chercher le mot cible parmi l’ensemble des formes stockées, nous proposons de décomposer ce processus en deux étapes. Dans un premier temps nous essayons de réduire l'espace initial à un ensemble plus petit. A cette fin on présentera tous les mots directement associés au(x) mot(s) source (l’entrée), mot(s) disponible(s), et mot(s) auquel(s) on pense spontanément en cherchant la cible. Dans un deuxième temps on essayera de guider l’utilisateur en lui présentant une version structurée des mots obtenus lors de la phase précédente. Pour atteindre ce dernier objectif il faut donc structurer la liste des mots, ce qui veut dire, qu’il faut former des groupes (clusters) auxquels on donne des noms (arbre catégoriel). Le défi ici est de nommer ces groupes, parce que c'est sur cette base (le nom de ces catégories) que l'utilisateur décidera dans quelle direction aller pour chercher le mot dans un ‘paquet’ particulier.

Mots clés : Accès lexical, WordNet, Wikipédia, WordFinder, groupement par catégorie, navigation assistée.