一、前言

好久没更新过文章啦，今天我们来聊一聊怎么找hubgene。

二、常见的寻找hubgene方法

我们如果要研究一个疾病，通常会做一个疾病的正常和非常基因差异表达分析，而得到的这些差异基因，怎么往下缩小范围往往是一个比较头疼的问题。如果你经常阅读文献或者对生信分析了解过一段时间，就会知道我们一般会从两个方向去看
①GO和KEGG富集寻找感兴趣的通路
②利用Cytocape及STRING数据库进行PPI蛋白互作，寻找Degree最高的TOP10，或者根据插件ClusterONE等分模块研究、基于cytohubba的各种算法进行关键基因提取。但是万变不离其中：从蛋白质的功能信息出发，查找与其功能相似或相关的蛋白质，并对这些蛋白质间的关联程度进比较、量化。
第一种的问题在于通路中包含的基因太多了，这时候我可能无法进行展开研究。而且纯人工挑选感兴趣的通路，让我感到生理上的不适。

第二种是我比较接受，但最近出现了问题的东西，也就是我现在要说的问题，比如我这个

这个是我研究的某个疾病，利用差异基因（P<0.05,logFC>2）绘制的PPI，我们感觉到基因像是富集了两个模块，但利用clusterONE分出来的只有画红圈的这一部分，下方不聚类或不全聚类。这就比较麻烦了，其实每个人对一个疾病进行研究，基本上都有一些研究思路，比如说我标颜色的这些基因才是我想研究的关键基因，如果根据Degree（其他数学模型算法都一样，Degree比重是最高的）也不会挑出我想要的基因。问题来了，怎么解决？

三、GOSemSim包

出自https://www.sciencedirect.com/science/article/pii/S1874391912007567
怎么判断哪些是hubgene?
第1个线索是基因的差异改变的程度比较大，但差异改变程度大并不一定代表重要。
第2个线索就是该基因的产物与通路上的其它基因产物都有互作的话。简而言之，该基因编码蛋白的“朋友”比较多的话，那么该基因就可能比较重要。
简单的说，如果两个基因产物的功能相似，那么他们在GO中注释的术语（term），在GOtree中所处的位置就比较相近，反映在语义相似度上，就是他们的语义相似度比较。所以这是一个利用GO分析进行通路间关系强度打分的包，最后做成了这个样子。这是我挑选的前十个基因，做成云雨图。至于GOSemSim怎么使用，大家可以自由探索了解。

转录组分析——如何寻找差异基因中的中枢基因（hubgene）

一、前言

二、常见的寻找hubgene方法

三、GOSemSim包

你可能感兴趣的:(转录组分析——如何寻找差异基因中的中枢基因（hubgene）)