Accentuation de mots inconnus : application au thesaurus biomédical MeSH
Pierre Zweigenbaum, Natalia Grabar
Résumé : Certaines ressources textuelles ou terminologiques sont écrites sans signes diacritiques, ce qui freine leur utilisation pour le traitement automatique des langues. Dans un domaine spécialisé comme la médecine, il est fréquent que les mots rencontrés ne se trouvent pas dans les lexiques électroniques disponibles. Se pose alors la question de l’accentuation de mots inconnus : c’est le sujet de ce travail. Nous proposons deux méthodes d’accentuation de mots inconnus fondées sur un apprentissage par observation des contextes d’occurrence des lettres à accentuer dans un ensemble de mots d’entraînement, l’une adaptée de l’étiquetage morphosyntaxique, l’autre adaptée d’une méthode d’apprentissage de règles morphologiques. Nous présentons des résultats expérimentaux pour la lettre e sur un thesaurus biomédical en français : le MeSH. Ces méthodes obtiennent une précision de 86 à 96 % (+-4 %) pour un rappel allant de 72 à 86 %.
Abstract : Some textual or terminological resources are written without diacritic marks, which hinders their use for natural language processing. Moreover, in a specialized domain such as medicine, all words are not always found in the available lexicons. The issue of accenting unknown words then arises. This is the subject of the present work. We propose two accentuation methods which both rely on a learning process, based on the observation of the contexts of occurrence of the accentuable letters in a training corpus. One is adapted from a part-of-speech tagging method, the other from a method for learning morphological rules. We present experimental results for letter e on a French biomedical thesaurus: the MeSH. These methods obtain a precision which ranges from 86 to 96% (+-4 %) and a recall from 72 to 86%.
Mots clés : Réaccentuation, mots inconnus, étiquetage, langue de spécialité, médecine
Keywords : Reaccenting, unknown words, tagging, specialized language, medicine