转录调控 | 基因集富集分析(GSEA)介绍

很多人会好奇为什么当KEGG、GO等常规差异富集结果中没有富集到我关注的通路时,大家会推荐进行GSEA分析呢?GSEA分析到底是什么?为什么KEGG、GO都可以进行该分析?

那么就让我们在本篇文章中一起来揭开GSEA的神秘面纱,希望下面的分享对大家后续的学术研究有所帮助。

基本概念

GSEA(Gene Set Enrichment Analysis ):基因集富集分析,其基本思想是使用预定义的基因集,把基因按照在两组样本中的差异表达程度进行排序,然后采用统计学方法检验预先设定的基因集合是否在排序列表的顶端或底端富集。

GSEA分析与常规富集分析的区别在哪里?

传统的GO/KEGG富集结果,如果富集到的同一通路下,既有上调差异基因,也有下调差异基因,那么这条通路总体的表现形式究竟是怎样?是被抑制还是激活?或者更直观点说,这条通路下的基因表达水平在实验处理后是上升了呢,还是下降了呢?

传统的富集分析,针对总体的差异基因,其实是不能区分通路的上下调情况的。

这是因为,传统的富集分析根本不考虑基因表达量的变化趋势,其算法的核心只关注这些差异基因的分布是否和随机抽样得到的分布一致,由于没有采用有效的统计学手段去分析某条通路下的差异基因的总体变化趋势,这使得传统的富集分析结果无法回答上述的问题。

想要回答这个问题,我们就需要用到GSEA富集分析方法。

此外,GO/KEGG差异基因的一刀切法--常规的基于超几何分布的富集分析依赖于显著上调或下调的基因,容易遗漏部分差异表达不显著但有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。基因集富集分析(GSEA)不需要指定明确的差异基因阈值,算法根据实际整体趋势分析,从基因集的富集角度出发,更容易囊括细微但协同变化对生物通路的影响,尤其是差异倍数较小的基因集。在结果解读时应该是侧重于GSEA分析还是常规富集分析?其中哪个更好呢?没有哪个更好的说法,只有哪个结果更符合我们的研究目的,只要有富集结果,就具有一定生物学意义。

基本原理

GSEA主要包括四个步骤:1:基因排序2:计算富集得分(Enrichment Score)3:估计富集得分的显著性水平4:多重假设检验。

Step1、基因排序

1)根据所有基因的表达数据,计算每个基因在分组间的差异(signal2 noise),然后按照在两个表型中的差异度从大到小排序,形成一个排好序的基因列表。

2)根据排序好的基因列表,判断基因集S中的基因是否在排序表的顶端或者底端富集。

Step2 、计算基因集S的 ES(Enrichment Score)富集得分

计算方法:从目标基因列表L的第一个基因开始,计算一个累计统计值。当遇到一个落在基因集S里面的基因,则加分。遇到一个不在基因集S里面的基因,则减分,增量的大小取决于基因与表型的相关性。最高峰为富集得分值(ES)

Step3、计算ES的显著性水平(名义P值)

利用empirical phenotype-based permutation test 来计算ES的名义P值,保留了原始表达数据的复杂相关性。

Step4、ES标准化和多重假设检验

考虑该基因集的大小,将每个基因集的ES标准化,得到标准化的富集分数(NES);通过计算false discovery rate (FDR) 值,来控制假阳性率。

其中FDR、p值:FDR<0.25,p<0.05且 |NES| >1则表示结果有统计学意义。

结果解读

以上就是我们GSEA分析的原理了,那么如何进行GSEA的结果解读呢?

GSEA保存文件路径中会生成非常多的文件:

如此多的文件使我们眼花缭乱无从下手,那么我们应该重点关注哪些,哪些又是常用结果呢?

点开gsea report for*的文件,可以进入GSEA的富集列表,GSEA最常见富集列表如下:

该表表头的具体含义为:

GS follow link to MSigDB :该基因集在GO、KEGG和Reactome等数据库中所对应的ID号

GS DETAILS:列举了前20个基因集的详细信息。

SIZE:基因集中包含的基因个数。

ES:Enrichment Score富集得分值。

NES:normalized enrichment score,考虑该基因集的大小,将每个基因集的ES值标准化,得到标准化的富集分数。

NOM p-val:nominal P value ,名义p值,富集分析统计学显著水平。

FDR q-val:false discovery rate q-val ,假阳性率P值,多重假设检验后得到的富集分析统计学显著水平。

FWER p-val:familywise-error rate p-val ,总体错误率P值。

RANK AT MAX:基因集在基因列表里的最大排名。

第一部分为基因ES的折线图,横轴为该基因下的每个基因,纵轴为对应的Running ES, 折线图中的峰值,即这个基因集的Enrichemnt score;第二部分为hit,用线条标记位于该基因集下的基因;第三部分为所有基因的rank值分布图, 一般默认采用Signal2Noise算法,对应了纵轴的标题。

对于Enrichment score为正数的基因集而言,其核心基因是峰值之前的基因,对于Enrichment score为负数的基因集而言,其核心基因是峰值之后的基因。

除上述结果文件中可以一一查看每个图,也可点击GSEA reports查看网页报告:

该报告点击“enrichment results in html ”也会出现上述富集列表

点击“details ”也会出现该基因集详细信息。上述即GSEA相关结果说明。

今天的分享就到此结束啦,希望本次的分享可以帮助到大家更好地理解GSEA分析。

你可能感兴趣的:(转录调控 | 基因集富集分析(GSEA)介绍)