2021-11-03 GSEA与ROC

现在在做LUAD预后,但是发觉样本太少,在犹豫是否需要重新来过

现在在学习GSEA

GSEA:基因集富集分析,,我的初始印象只有一个图,但是其余的什么都不知道

所以需要重新学习一下这个到底是什么意思?

是否真的是数理统计知识不够,还是自己的学习方法有误,这么久只是知道一个概念

了解思想,原理,然后实战及总结

思想是什么?

假设你对某一个基因功能感兴趣,一个是野生型,一个是敲除型,然后比较差异

得到差异基因后做GSEA,然后推测基因敲除前后哪些通路上调,哪些通路下调

另一种:100个人参加选修节目,各有特点,比如唱歌好,跳舞好,颜值好等等

然后我们按照一定的规则排序,或是年龄或是身高或是地域,然后发现一些规律

比如按照身高排序,发现跳舞好的集中在中等身高,表明中等身高的人更适合跳舞,是规律

比如按照地域划分,发觉湖南的人爱吃辣,这就是一个特点,,但是特点找到了如何用呢?

在我们实际操作的过程中,我们是按照基因表达差异倍数排序,从正到负排序

这就是一个标准,然后富集分析

那就是需要一个基因表达谱且按照基因差异排序的表达谱

然后是如何知道这些基因在哪些通路上富集,那就需要一个信号通路作为参照

你说行,那需要一个参考标准。比如你说谁跳舞好,观众知道,但是无权决定,需要专家去决定,,,所以还需要一个事先就有的基因集去作为参照才能说明,,那这个参考基因是什么,怎么得到的,怎么比较的

第一步已经知道了。有一个基因集,有一个排序

在看的过程中一直提到go与kegg,那么就需要知道差异

go与kegg是对差异明显基因做富集分析,,缺点是一些表达差异不大但是有重要功能意义的基因会被过滤掉,导致研究不充分,所以有了GSEA

最终还是没有理解GSEA的本意,所以导致的一直徘徊在外

回到前面的问题,就是如何分析,可能是生物背景基础知识薄弱,才会导致

把差异基因排序后如何知道这些差异基因在什么通路上富集呢?

那就是一个个基因看看在什么通路上或者直接看两端

GSEA就是看差异基因在先验通路上的富集情况,,那就是差异基因,先验通路

得到差异基因后,按照从小到大排序,记录为L,现在需要从L中挖掘需要的信息

用到的还是假设检验

原假设:某个通路中的所有基因,在L中是随机分布的,加入我们突然能够观测到某个通路中的所有基因富集在L的一端,计算其富集程度,计算其统计显著性。如果小于某个阈值(p值),我们就拒绝原假设,认为该通路子L中富集,并且通过富集的程度打分,

如果为正,则倾向于上调的及基因富集,如果为负,则该基因倾向于下调的基因富集

发觉到这一步就乱了,需要统计知识及思想

你可能感兴趣的:(2021-11-03 GSEA与ROC)