talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Quand l’oral se fait entendre à l’écrit : alignement de lexiques en l’absence de normalisation graphique

Delphine Bernhard, Lucie Steiblé

Résumé : Les dialectes parlés en Alsace, que l’on regroupe communément sous l’appellation « alsacien », se caractérisent par un manque de ressources numériques, qu’il s’agisse de corpus ou de lexiques. Par ailleurs, les dialectes d’Alsace sont avant tout des langues parlées dans la vie quotidienne, et leur graphie n’est pas encore complètement codifiée : une unité lexicale peut donc avoir plusieurs graphies. Ceci est un défi majeur pour la construction de ressources lexicales, car les variantes orthographiques d’une entrée lexicale doivent être identifiées. Cet article décrit une méthode pour la construction de lexiques bilingues français-alsacien qui vise à résoudre ce problème. Elle consiste à aligner des lexiques bilingues existants, en utilisant l’algorithme phonétique Double Metaphone afin de détecter les variantes. En outre, les mots alsaciens sont automatiquement reliés aux entrées de BabelNet, un réseau sémantique multilingue (Navigli & Ponzetto, 2012). La méthode d’alignement des lexiques atteint de bons niveaux de précision, ce qui permet la construction automatique de ressources, avec une intervention humaine limitée à quelques corrections. La principale originalité de ce travail est qu’il ne vise pas la normalisation, qui consisterait à transformer les variantes orthographiques en une norme donnée. Par ailleurs, au lieu d’une simple liste de mots bilingues, les liens vers BabelNet fournissent une couche sémantique supplémentaire reliant les entrées à des sens lexicaux. Enfin, nous utilisons les alignements obtenus pour faire une comparaison entre observations réalisées sur la langue orale et les graphies relevées dans les lexiques.

Abstract : The dialects spoken in Alsace, which are commonly grouped under the name “Alsatian”, are characterized by a lack of digital resources, whether corpora or lexicons. Moreover, the Alsatian dialects are primarily spoken in everyday life, and their spelling is not yet completely codified : a given lexical unit can have multiple spellings. This is a major challenge for building lexical resources because alternative spellings of a lexical entry must be identified. This article describes a method for building French-Alsatian bilingual lexicons that aims to solve this problem. It consists in aligning existing bilingual lexicons, using the phonetic algorithm Double Metaphone to detect variants. In addition, the Alsatian words are automatically linked to entries in Babelnet, a multilingual semantic network (Navigli & Ponzetto, 2012). The lexicon alignment method achieves good levels of precision, which allows the automatic construction of resources with limited human intervention. The main originality of this work is that it does not target normalization, which would transform the spelling variants to a given standard. Moreover, instead of a simple list of bilingual words, links to Babelnet provide an additional semantic layer which connects the lexical items to senses. Finally, we use the alignments obtained to perform a comparison between phenomena observed in the spoken language and the written forms found in the lexicons.

Mots clés : alignement de lexiques, variantes orthographiques, alsacien, BabelNet

Keywords : lexicon alignment, spelling variants, Alsatian, BabelNet