GSEA的leading edge analysis(LEA)

前面在GSEA可以做什么中列了GSEA的一些应用场景,这个算其中之一,也是相对被遗落的一个分析,其实还是比较有用的,那就是leading edge analysis。更多GSEA结果解读。
它可以做什么?有没有哪个(些)genes在富集到的GO或kegg里出现次数最多(意味它可能很关键,连接很多信号通路或生理过程等),这个功能通过leading edge analysis实现。同时它也有弊端,那就是这其中有富集到的GO结果的冗余性,但是这个是可以解决的。(具体解决方式,可先google什么是GO的冗余性,怎么去除,然后再知道GSEA的分析原理,就可以了。)

也就是说:LEA可以有助于知道富集到的GO term中哪些gene出现最多,它很可能很关键,但一定考虑GO term的冗余,而这个是GSEA本身无法通过设置参数解决的。


假如已经得到了GSEA的富集分析结果,就可以进行Leading edge analysis了,LEA可以提供哪些gene(指的是零头亚基)对给定的gene sets贡献最大。(领头亚基指对Es值贡献最大的基因集合),领头亚集由ES决定。

  • 1 选择合适的Gene sets,这可以由FDR cut-off设定
  • 2 GSEA软件会输出4个图,代表1中选出的亚基重叠,分别为
    a:heatmap,显示领头亚集clusters或表达值,并用颜色表示范围,low-high
    b:set to set graph,显示gene set间的重叠,用颜色表示set之间共享的gene数目
    c:基因集中的gene列表,一个具体的gene属于多少sets,这可以给出一定的信息,和生物学问题先关的关键genes
  • 3 可以生产build HTML Report,所有LEA细节,组成leading edge subset genes,与表型相关的表达值间有高相关性,并且倾向于极端分布而不是随机分布。通常这些领头亚集中的gene对ES得分有直接关系。这些都基于几个统计学值。如果tag,list,signal
    Tag:领头亚集中的gene数目,而这些gene直接贡献了+ES.
    List:给出了这些gene的位置或Rank
    Signal:genes的强度和strength或intensity
    GSEA module,一个关键应用是看两个groups之间富集的gene的重叠性。overlap之间的比较。可以延伸,更好理解哪些genes更倾向涉及表型。

你可能感兴趣的:(GSEA的leading edge analysis(LEA))