La relation de synonymie en génomique
Davy Weissenbacher
Résumé : L’accès au contenu des textes de génomique est aujourd’hui un enjeu important. Cela suppose au départ d’identifier les noms d’entités biologiques comme les gènes ou les protéines. Se pose alors la question de la variation de ces noms. Cette question revêt une importance particulière en génomique où les noms de gènes sont soumis à de nombreuses variations, notamment la synonymie. A partir d’une étude de corpus montrant que la synonymie est une relation stable et linguistiquement marquée, cet article propose une modélisation de la synonymie et une méthode d’extraction spécifiquement adaptée à cette relation. Au vu de nos premières expériences, cette méthode semble plus prometteuse que les approches génériques utilisées pour l’extraction de cette relation.
Abstract : The access to textual content in genomics is now recognized as an important issue. One of the first steps is the recognition of biological entity names such as gene or protein names. It has often been observed that entity names may vary in texts but this phenomenon is especially common in genomics. Besides a gene canonical name, one can find various abbreviation forms, typographic variants and synonyms. Stemming in a corpus analysis, this paper argues that synonymy in genomic texts is a stable and linguistically marked relation. This paper presents a method for extracting couples of synonymous gene or protein names. From a preliminary experiment, this method seems more promising than generic approaches that are exploited to extract synonymy relations.
Mots clés : Extraction d’information, synonymie, entités nommées, génomique
Keywords : Information extraction, synonymy, named entities, genomics