基因富集分析(Gene Set Enrichment Analysis,GSEA)是一种针对全基因组表达谱芯片数据的分析方法,将基因与预定义的基因集进行比较。即综合现有的对基因的定位、性质、功能、生物学意义等信息基础,构建一个分子标签数据库,在此数据库中将已知基因按照染色体位置、已建立基因集、模序、肿瘤相关基因集和GO基因集等多个功能基因集进行分组与归类。通过分析基因表达谱数据,了解它们在特定的功能基因集中的表达状况,以及这种表达状况是否存在某种统计学显著性。
统计过程:1.计算富集分数。2.估计富集分数的显著程度。3.校正多重假设检验。
在安装GSEA软件之前,你的电脑先要安装JAVA, 因为GSEA是在JAVA的环境下运行的。安装JAVA,可以参考https://blog.csdn.net/qq_42040731/article/details/82598034
下载GSEA软件
http://software.broadinstitute.org/gsea/downloads.jsp
打开GSEA,界面如下:
GSEA的数据准备都有它的格式的,
通常用.gct为后缀。
(1)以分类(例如肿瘤与正常)类文件格式(*.cls)
CLS文件格式定义表型(类或模板)标签,并将表达式数据中的每个样本与标签相关联。CLS文件格式使用空格或制表符来分隔字段。
CLS文件格式在某种程度上有所不同,具体取决于您是定义分类还是连续表型。分类标签定义了不连续的表型; 例如,正常与肿瘤。对于分类标签,CLS文件格式组织如下:
(2)连续(例如时间序列或基因谱)文件格式(.cls)
CLS文件格式定义表型(类或模板)标签,并将表达式数据中的每个样本与标签相关联。CLS文件格式使用空格或制表符来分隔字段。
CLS文件格式在某种程度上有所不同,具体取决于您是定义分类还是连续表型。连续表型用于时间序列实验或寻找与目的基因(基因邻居)相关的基因组。用于连续标签的CLS文件可以包含一个或多个标签。以下示例显示了定义两个连续标签的CLS文件:
#numeric
#AFFX-BioB-5_st
206.0 31.0 252.0 -20.0 -169.0 -66.0 230.0 -23.0 67.0 173.0 -55.0 -20.0 469.0 -201.0 -117.0 -162.0 -5.0 -86.0 350.0 74.0 -215.0 193.0 506.0 183.0 350.0 113.0 -17.0 29.0 247.0 -131.0 358.0 561.0 24.0 524.0 167.0 -56.0 176.0 320.0
#AFFX-BioDn-5
75.0 142.0 32.0 109.0 -38.0 -80.0 62.0 39.0 196.0 -42.0 199.0 49.0 171.0 327.0 115.0 -71.0 85.0 80.0 270.0 182.0 208.0 -94.0 292.0 233.0 34.0 0.0 59.0 233.0 48.0 466.0 -7.0 -96.0 297.0 38.0 208.0 -15.0 30.0 357.0
第一行: #numeric
指示所述文件定义为连续型标签。其余部分定义连续的表型。
对于每一种表型:
#AFFX-BioB-5_st
GMT文件格式是以制表符分隔的文件格式,用于描述基因集。在GMT格式中,每行代表一个基因集; 在GMX格式中,每列代表一个基因集。GMT文件格式组织如下:
每个基因组由名称,描述和基因组中的基因描述。GSEA使用描述字段来确定报告中为基因集描述提供的超链接:如果描述为“na”,则GSEA提供指向MSigDB中命名基因集的链接; 如果描述是URL,则GSEA提供指向该URL的链接。
去http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats查看关于GSEA文件格式的要求。
点左侧的Load data
,选择Browse for files...
, 然后找到对应的文件,进行导入。如果成功的话,会有消息告诉你导入成功,如果不成功,就需要自己再去检查文件格式等等是否正确了。
点击左侧Run GSEA,接下来右侧面板会弹出参数选择框。上方的为必需的参数设置,下方的为非必需的。此处,主要讲解一下必需的参数设置。
Expression dataset(表达文件): 选择上一步上传的表达gct文件
Gene sets database (功能基因集数据库):GSEA包含了MSigDB数据库中的功能基因集,可以从中选择感兴趣的通路、癌症标记、转录因子数据库等。比如,我使用的是c2.cp.kegg.v7.0.symbols.gmt
Number of permutations(扰动/随机次数):通常设置1000,此参数不可过小。
Phenotypes labels(样品表型分类文件):选择上一步上传的表型cls文件
Collapse dataset to gene symbols:
- 选择
ture
的情况时,你的表达数据是用probe id 作为基因名的,如果你这里选择的是true
,那在Chip platform中就要选择对应的平台号才可以运行。- 选择
false
的情况是, 你的表达数据是用symbol作为基因名的。如果你这里选择的是false
,那在Chip platform中就不需要选择了,空着就可以的。
Permutation type(扰动类型): 通常选择phenotype,如果样品数目较少可以选择gene_set。
Chip platform(芯片类型):如果表达gct文件的第一列为芯片探针id则此处需要选择对应的芯片平台,如果是基因symbol则无需选择。
如果是分类型的数据,就可以不进行下面参数的选择,直接默认,然后去最下面run
就可以了。
因为我的数据是时间系列的,所以,我还需要在basic fields
中设置参数。点basic fields 右侧的那条线就可以出现它这个区域下的参数了。
Anlysis name : 看你想不想改咯,这里可以设定你自己想要的名字。
Enrichment statistic : 默认是 weighted
Metric for ranking genes: 因为我的数据时时间型的,所以在这个参数选择,我必须要改成 pearson
, cosine
, manhattan
和Euclidean
其中一个
时间连续型的数据,Metric for ranking genes必须要改成
pearson
,cosine
,manhattan
和Euclidean
其中一个
Save results in this folder: 选择自己想要保存在哪里的文件夹中
参数选择完毕点击右下角的Run运行GSEA。点击完成后在左下方面板会出现Gsea running字样。如果分析完成,Running状态会更改为Success状态。点击Success则可查看分析结果。这个运行时间与所选的功能基因集、扰动的次数有关。
注意:默认情况下,排名指标是信噪比。要让GSEA根据不同的度量对基因进行排序,请在Run
GSEA页面查看度量对基因参数进行排序。使GSEA分析您所创建的基因的排序列表,请使用GSEAPreranked页面。
GSEA User Guide
超详细教程│GSEA基因集富集分析
如何实现GSEA-基因富集分析?