GSEA分析笔记

之前对芯片数据的分析,基本上就是limma包进行差异分析,然后对差异基因进行GO富集分析。GSEA(Gene Set Enrichment Analysis),顾名思义基因集富集分析,它是将待分析的基因与预先划分为基因集的基因进行比较,通过统计学计算,得出可能发挥关键作用的基因。这篇文章关于GSEA的原理讲的很棒:
https://www.jianshu.com/p/b409a5576ce1
下面我就记录下自己第一次进行GSEA分析的经历,首先是比较重要的Molecular Signatures Database,简称MSigDB:

进行GSEA分析需要的准备:

  1. JAVA8.0以上

  2. GSEA软件 选择合适自己的版本下载
    http://software.broadinstitute.org/gsea/downloads.jsp

  3. 分析数据(GSE14906.txt)

    GSEA可支持的数据集有gct,txt,pcl不同数据集格式,需要进行不同的预处理,我这里直接用.txt文件,主要是简单,第一行是样本名,第一列是probeID,如下就行了:
  4. 分组信息(phe.cls)
    分组信息只支持.cls,主要就三行。
    第一行:61(样本数目) 2(分组个数) 1(固定是1);
    第2行:#normal cancer 分组的标签可以自定义或者WT Control等;

    第3行:normal cancer normal cancer normal ,分析数据中第一行对于的样本分组信息,要与第1,2行保持一致,本次分析设置如下:字节之间以空格分割

然后打开GSEA软件,选择load data,将以上两个文件load到软件中去

在Gene sets database中选择自己富集分析的类型,参考MSigDB中的说明进行选择,这里我把MSigDB的数据全部下载到本地了,故而在load data时,我已经将需要富集分析的databases.gmt文件load到软件中了,如下

我这次使用的是GSE14906数据集,在NCBI-GEO数据库中查到其芯片平台是这样的

因为我网络不好,所以我把所有GSEA的chip platform全部也下载到本地,同样的在chip platform选项下,选择对于的芯片平台,这里是必须要选择的,因为我的表达数据中GeneID例是probeID,GSEA在分析过程中,还会将我的probeID根据chip platform提供的探针注释信息,对其进行GeneID转换。其他设置都采用默认项即可,然后点击右下角的Run,开始运行

在运行完成后,左下角的对话框会显示“success”,然后单击“success”就会弹出分析结果的网页版
分析结果网页版:
本地分析结果:C:\Users\yourname\gsea_home\output\may09\my_analysis.Gsea.1557404128853,会有分析你的分析结果

注意事项:
1.一定要注意分析数据的格式,phenotype文件的格式
2.GSEA分析过程会极度依赖网络状态,所以如果你网络不好,将探针注释文件,MSigDB一定要下载到本地
3.不清楚的选项暂用默认选项
4.还是操作不成功,要会先前辈请教

参考文章:
https://blog.csdn.net/qazplm12_3/article/details/78561937
http://www.bioinfo-scrounger.com/archives/557

你可能感兴趣的:(GSEA分析笔记)