talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Réseaux Lexicaux, Traitement des Langues, et Données Liées Ouvertes

Gilles Sérasset

Résumé : Ces dernières décennies, notre regard sur les données lexicales informatisées a beaucoup évolué. D’abord annexe lexicale d’une grammaire ou d’une application, les dictionnaires d’application sont devenues bases lexicales dans lesquelles s’agrégeaient les données de différents modules. L’effort suivant s’est concentré dans la normalisation du format, avec notamment un mouvement massif vers le tout XML. Le travail de normalisation des structures des lexiques a suivi ensuite. Mais, alors que les normes restent structurellement proches des dictionnaires originaux (vus comme une collection d’entrées organisées de manière arborescentes), ont émergé des modèles de lexiques pensés comme des graphes. Parallèlement, les travaux dans le domaine du Web Sémantique nous ont donné les moyens de représenter, manipuler et surtout partager nos ressources lexicales. En adoptant une représentation en RDF (Resource Description Framework), ainsi que l’approche des données liées ouverte (Linked Open Data), nous avons enfin les moyens de lier, fusionner, parcourir l’ensemble des ressources lexicales comme s’il ne s’agissait que d’une seule ressource. Dans cette présentation, en m’appuyant sur les travaux réalisés dans le cadre des projets Papillon, LexALP et DBnary, j’essaierai de montrer en quoi, au delà de l’effet de mode actuel, l’utilisation du format des donnés liées ouvertes, est l’étape suivante naturelle dans notre étude du lexique.

Mots clés : Données liées ouvertes, lexiques, traitement des langues.