生信数据库01-MSigDB

本内容为【科研私家菜】生信数据库系列课程

R小盐准备介绍那些小众又重要的生信数据库

让我们跟着R小盐来一起学习吧

你想要的R语言学习资料都在这里, 快来收藏关注【科研私家菜】

今天R小盐介绍的数据库是GSEA | MSigDB (gsea-msigdb.org)

01 MSigDB数据库

分子签名数据库(The Molecular Signatures Database , MSigDB) 是一个用于GSEA软件的注释基因集的集合。GSEA, Gene Set Enrichment Analysis,即基因集富集分析,是由Broad Institute研究所的科学家提出的一种富集方法。


对于human的基因,从位置,功能,代谢途径,靶标结合等多种角度出发,构建出了许多的基因集合,一个基因集合中就是具有相近位置或类似功能的许多基因的,Broad Institute研究所将它们构建的基因集合保存在MSigDB数据库中。
该数据库是不断更新和完善的,目前最新版本为v7.5.1, 更新于2018年7月,共收录了17810个基因集。



02 MSigDB

MSigDB将所有的基因集划分为8大类别:

  1. H: hallmark gene sets
    该类别包含了由多个已知的基因集构成的超基因集,每个H类别的基因集都对应多个基础的其他类别的基因集。比如HALLMARK_ADIPOGENESIS对应36个基因集。

  2. C1: positional gene sets
    该类别包含人类每条染色体上的不同cytoband区域对应的基因集合。根据不同染色体编号进行二级分类。

  3. C2:curated gene sets
    该类别包含了已知数据库,文献和专家支持的基因集信息,

  4. C3 : motif gene sets

该类别包含了miRNA靶基因和转录因子结合区域等基因集合,示意如下

无论是转录因子还是miRNA, 都是通过特定的motif序列来识别可以结合的区域,这些基因集合,本质上为具有相同motif序列的基因集。

  1. C4 : computational gene sets

该类别包含计算机软件预测出来的基因集合,主要是和癌症相关的基因,示意如下

  1. C5 : GO gene sets

该类别包含了Gene Ontology对应的基因集合。

  1. C6 : oncogenic signatures

该类别包含已知条件处理后基因表达量发生变化的基因。

  1. C7 : immunologic signatures

该类别包含了免疫系统功能相关的基因集合。

效果如下:

数据库引用:

Subramanian, Tamayo, et al. (2005, PNAS)
Liberzon, et al. (2011, Bioinformatics)
Liberzon, et al. (2015, Cell Systems),


关注R小盐,关注科研私家菜(VX_GZH: SciPrivate),有问题请联系R小盐。让我们一起来学习 生物信息在线数据库

你可能感兴趣的:(生信数据库01-MSigDB)