GSEA算法学习

GSEA文献阅读
1.重要解释
Ranked Gene List L:该基因列表为待检测的数据集(通常为试验获得的表达矩阵文件);
Gene Sets S:该基因集为已知功能注释的某一个通路所含基因(如一个GO term中所用基因);
Leading Edege Subset:核心基因集,通常为位于ES的某一侧(或者Rank Gene List的某一端)

2.计算方法
步骤1:富集分数的计算
通过计算基因富集分数(ES)来反映基因集S在排名列表L里的极端(顶部或底部)的过度呈现程度。通过沿着列表L走,当我们遇到一个基因在S中的时候,增加一个累计统计量,不在S中的时候,减少一个累计统计量。增量的大小取决于基因与表型的相关性。富集分数是检索过程中遇到的最大统计量;它对应于一个加权的Kolmogorov-Smirnov统计检验。


image.png

1.将分析所得的基因集中的N个基因依照相关性r(gi)=ri按顺序排列为L = {g1,g2,…gN},相关性按照基因表达量来计算;
2.通过每个基因在S中的出现与否及相关性计算hit和miss。

3.关键字符解释
1.P值的设定:
p < 1:明显非随机分布的多个基因;
p > 1:基因集S中有大量基因,但只有少数基因是具有一致性分布的;
p = 1:仅通过相关性,允许基因集存在偏差。


image.png

∑:表示基因集S(功能通路)中位于排序后的基因列表中L的基因的表达变化趋势程度的和值;
N:表示基因列表L中基因的数目;
NH:表示基因集S中基因的数目。

FC:fold chage 基因差异表达倍数
这里使用FC = ri(相关性)

image.png

不同的ri算法。
(未完待续)
参考:
https://blog.csdn.net/nixiang_888/article/details/107062461?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-5.vipsorttest&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-5.vipsorttest

你可能感兴趣的:(GSEA算法学习)