小鼠基因集-GSKB--R进行GSEA富集分析

1. 数据集介绍

  由于人类基因集富集分析,有msigdb数据库,上面有各种数据集的几何,因此做人的基因集富集分析还是很方便的,可以直接从上面下载数据集即可:

msigdb数据库基因集

  从上图可以看到,msigdb的基因集有很多,那么小鼠的基因集呢?通过查询,最终发育有一个小鼠的专门数据集,既GSKB,这是鼎鼎大名的broad研究所开发的数据集,而且这个数据集一共7个数据集,主要介绍如下:

GSKB的7的基因集

  GSKB数据基因集来源较多,这里不一一介绍,大家可以直接到官网进行查询相关基因集来源,比如下图:

GSKB数据基因集来源

2. 基因名大小写的问题

  在使用GSKB基因的时候,发现了一个非常不解的地方,我们都知道小鼠的基因名称都是首字母大写,其他字母都小写,但是我们在查看基因的时候,发现GSKB的基因集基因名称全部是大写:

library(gskb)
data(mm_miRNA)
mm_miRNA[[1]][1:10]

mm_miRNA基因集查看

  从上图看出,基因名称全部是大写,但是后续使用的过程中,并没有大小写转换或者其他的人和小鼠的基因名称转换,这难道包里面默认就可以转换吗?我翻了一下代码,我也没有找到,由于时间的原因,暂时先不看找了,反正对使用没有关系,使用的时候,可以将所有的基因名大写就可以了。

3. GSEA富集

  GSEA可以通过java程序进行富集分析,其实也可以通过R进行分析,其具体富集分析过程如下,从这里也可以看出,其基因名没有转换。

GSEA.prog.loc<- "http://ge-lab.org/gskb/GSEA.1.0.R"
source(GSEA.prog.loc, max.deparse.length=9999)
GSEA(
 # Input/Output Files :------------------------------------------------
 # Input gene expression Affy dataset file in RES or GCT format
 input.ds = "http://ge-lab.org/gskb/mouse_data.gct",
 # Input class vector (phenotype) file in CLS format
 input.cls = "http://ge-lab.org/gskb/mouse.cls",
 # Gene set database in GMT format
 gs.db = mm_miRNA,
 # Directory where to store output and results (default: "")
 output.directory = getwd(),
 # Program parameters :-----------------------------------------------
 doc.string = "mouse",
 non.interactive.run = T,
 reshuffling.type = "sample.labels",
 nperm = 1000,
 weighted.score.type = 1,
 nom.p.val.threshold = -1,
 fwer.p.val.threshold = -1,
 fdr.q.val.threshold = 0.25,
 topgs = 10,
 adjust.FDR.q.val = F,
 gs.size.threshold.min = 15,
 gs.size.threshold.max = 500,
 reverse.sign = F,
 preproc.type = 0,
 random.seed = 3338,
 perm.type = 0,
 fraction = 1.0,
 replace = F,
 save.intermediate.results = F,
 OLD.GSEA = F,
 use.fast.enrichment.routine = T
 )

你可能感兴趣的:(小鼠基因集-GSKB--R进行GSEA富集分析)