talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Construction automatique d'une base de données étymologiques à partir du wiktionary

Benoît Sagot

Résumé : Les ressources lexicales électroniques ne contiennent quasiment jamais d’informations étymologiques. De telles informations, convenablement formalisées, permettraient pourtant de développer des outils automatiques au service de la linguistique historique et comparative, ainsi que d’améliorer significativement le traitement automatique de langues anciennes. Nous décrivons ici le processus que nous avons mis en œuvre pour extraire des données étymologiques à partir des notices étymologiques du wiktionary, rédigées en anglais. Nous avons ainsi produit une base multilingue de près d’un million de lexèmes et une base de plus d’un demi-million de relations étymologiques entre lexèmes.

Mots clés : Développement de ressources lexicales, étymologie, wiktionary.