GO,KEGG,GSEA富集分析笔记

what is Gene Ontology ?——基因本体论

1 , 什么是本体论?
简单来说,就是我们对一个具体事物进行分类并予以描述。
例如:猫是一种哺乳动物/猫是猫科动物/猫是一种生活在陆地的生物等等。对于一事物,我们可以用不同的分类加以描述。因此,对于gene的本体论,是对gene的一种描述。而对gene的描述大概分三种:
① Cellular component 简称CC
② Biological process 简称BP
③ Molecular Function 简称MF
下面一一进行介绍
① 主要是看gene存在在哪,比如存在在细胞质还是细胞核,假如存在在细胞质,又存在在哪个细胞器呢?亦或者存在在线粒体中,是在线粒体膜上,还是线粒体机制中。
②指它能参与哪些生物学过程,比如说能够参与RNA的加工,DNA复制等
③指从分子层面的功能是什么,比如说它具有什么催化功能分子功能等
所以, 我们可以从这三个方面得到基因的注释信息。

2, 让我们来捋一捋具体的思路:
① RNA-Seq 一般分为处理组和对照组 , 即contral 和 treatment , 然后根据ctrl 和 treatment的表达谱进行比较找出来DEG(differential expression gene : 差异表达基因,后续会更新怎么找出差异基因)。
② 我们得到DEG后,对其进行GO annotation (GO 注释,即上面介绍的对gene 的描述), 我们期望可以在这三方面找到我们想要的以及未知的发现。
③那么下面一步就略微难理解, 比如说,我有200个DEG ,100个在细胞核中,那么我们可以说基因富集在了细胞核吗?所以引出另外一个问题,How to test the GO is enriched ? 所以就有了GO 富集分析。对于模式生物(比如人),GO注释已经有了完备的数据库可以使用。

④KEGG富集分析对于人而言,也有了完备的数据库可以使用,我们只要将DEG整理到一个数据集,使用R便可得到富集结果(后续会更新怎么进行GO ,KEGG富集分析)。个人理解的原理是,请思考一个问题,人体有20000多个基因,假如由1000个基因能被注释成通路A,而有500个差异基因,其中300个注释到了通路A,那么这500个基因是否富集到了通路A?
计算公式

  个人通俗理解:从2000个基因碰到注释为通路A的概率为1/20 , 而500个差异基因里就有300个,概率为3/5,所以说明跟这条通路可能有关系,当然具体还是要算P值。
⑤GSEA分析:Gene Set Enrichment Analysis (基因集富集分析)评估一个预先定义的基因集的基因在与表型相关度排序的基因表中的分布趋势,从而判断其对表型的贡献。需要输入DEG基因集 ,还有其表达矩阵,R会基因根据其于表型的关联度(可以理解为表达值的变化)从大到小排序,然后判断基因集内每条注释下的基因是否富集于表型相关度排序后基因表的上部或下部,从而判断此基因集内基因的协同变化对表型变化的影响。与前面的GO和KEGG富集分析不同,GO和KEGG富集分析是设置阈值筛选差异基因,再判断差异基因在哪些注释的通路存在富集;这涉及到阈值的设定,存在一定主观性并且只能用于表达变化较大的基因。而GSEA则不局限于差异基因,从基因集的富集角度出发,可以包括我们筛选掉的表达变化小却对通路细微作用和协调功能的基因。

你可能感兴趣的:(GO,KEGG,GSEA富集分析笔记)