一些GO及KEGG分析的知识

参考:https://www.omicshare.com/forum/thread-826-1-2.html
https://www.omicshare.com/forum/thread-955-1-1.html
https://www.jianshu.com/p/13f46bebebd4

  • 什么是GO分析?

Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。GO的基本单位是term(词条、节点),每个term都对应一个属性。

  • 什么是KEGG分析?

KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是系统地分析基因功能、链接基因组信息和功能信息的数据库,包括代谢通路(pathway)数据库、分层分类数据库、基因数据库、基因组数据库等。KEGG的pathway数据库是应用最广泛的代谢通路公共数据库。

  • 了解富集分析前,一些关于基因的概念。

每个基因都会对应一个或者多个GO term。而一般研究富集会涉及两个概念:前景基因和背景基因。1)前景基因指研究者关注的重点研究的基因集,而2)背景基因指所有的基因。比如通过实验比较实验组与对照组的转录组测序,前景基因就是对照组vs处理组的差异基因,背景基因就是这两个样本表达的全部基因。

  • 什么是富集?

富集就是为了比较某个GO term在所关注的前景基因中的占比是否要显著高于在所有背景基因中占有的比例。而这个的证明就是通过显著性来评判。

  • 这里作者举了一个生动的例子。

比较深圳市(前景基因)与整个广东省(背景基因)的大学生(某个GO term)的占比,即相比广东省,大学生的数量所占的比例,在深圳市是否更多。而最终求得的占比数值,则通过比较以证明显著性

  • 如何来计算显著性?
    图片来自用户:井底蛙蛙呱呱呱

    这个显著性其实就是根据这个超几何分布检验公式计算获得。

先用个形象的例子来理解超几何分布:在超市抽奖,要求从商品(N)中抽取奖品(n),不放回抽取,其中抽得的商品内有指定奖品(M),测定可以抽中指定奖品(k)的概率。

类似的,在GO分析中:

N为数据库中具有GO注释的所有基因数,n为N中具有差异表达的基因数;
M为数据库中注释为某GO term的基因数目,k为注释为某特定GO term 的差异基因数。

KEGG通路中对富集的计算也十分类似。

KEGG 通路富集与GO富集类似,分别指,差异基因(n)中注释到某个代谢通路(pathwayX)的基因数目(k)比例与所有背景基因(N)中注释到某个代谢通路(pathwayX)的基因数目(M)。

  • 超几何分布的运算式:
    ps:由于本人能力有限,不是特别理解超几何分布的数学意义与运算,但根据百度百科定义,可以按照古典概型的抽样来计算。只是在超几何分布下,M可以为任意实数。(不保证语言正确性,只是方便计算理解)



    这里再补充组合的计算:


因此通过上述一顿操作猛如虎后的,即可得到基因n是否在M/k 类中富集(N)的概率(P)。

  • 但这样,似乎还不够。即便得到P的数值很大,但还需要考虑随机情况引起的假阳性结果。
    即若从N中提取得到了n,但由于随机概率,导致k在M中的概率很高的话,(按照之前大学生的例子可以理解为:由于随机概率,导致了刚好抽到了多数的大学生)

  • 可以通过P-value 检验概率的显著性。即假设极端条件下的概率,若P值较小,则可以拒绝极端条件假设,认为极小概率事件可以等同于不能随机出现。

既然P-value 针对的是极端情况,那就让情况更极端一些好了。


图片来自用户:井底蛙蛙呱呱呱

即从总的基因N(背景基因)中抽取n个基因(前景基因),其中由i个基因落在符合条件的总的M个基因里。而之前的式子所讨论的概率运算,则正是i=k/m 时的情况下,求得的概率。
为了验证这一概率是否具备显著性,就索性计算 (k/m ~ M)这段更加极端的概率之和,最终得到的P越小,则检验结果越显著。(P<0.5, P<0.1……)

你可能感兴趣的:(一些GO及KEGG分析的知识)