某些生信套路的可靠性非常低

现在生信环境太乱。杂志社审稿人并非专业生信人,研究人员更多的还是想水文,加上一部分研究人员对代码只是复制粘贴,造成很多处理错误。审稿人懂还好,能把这种最低档水文拦住,关键审稿人也不懂啊,很容易就被一通分析给镇住。


复制粘贴代码不是问题。

问题在于,一方面不理解代码原理,一通拼凑。另一方面文章没有脉络,一味套套路,讨论和分析只是一味叠buff。


举个非常经典的套路按步骤来吐槽一下。

基本步骤如下:

1.选通路或基因集,比如铁死亡

2.和deg取交集

3.构建ppi,取核心基因

4.根据核心基因对样本进行二分类

5.wgcna加富集

6.免疫浸润和免疫微环境

7.可能还会做点药靶,或者进一步取核心基因做建模预后,加点gsea什么的


上面这个套路可以说非常经典,非常全面,而且绝对能出结果,就是文章结果是不是假阳性全看个人良心。

下面说说上面这个套路问题出在哪!

先按顺序从头分析:

第1步,选个基因集,没毛病。基因集在研究中的意义类似于危险因素。非常有意义。但是问题在于,首先基因并不独属于某一个或两个基因集,稍微懂点的会用gsea打个分,把把关,看看这个危险因素和疾病是不是相关的。但是没有对比就没有伤害啊,像gsea这种打分机制并不能区分真假阳性结果,它只是单纯的打分而言。共表达虽然能说明一定问题,但是一共两百个基因,交叉的只有40个,扪心自问,真的能说这是个阳性结果吗?

纯小白就更离谱了,直接取交集。两百个基因交集下来就十几二十个,甚至看到过只有几个的。直接就下结论,通过这几个基因影响这个组织铁死亡,从而影响疾病发展。这合理吗?

其次,你选个凋亡,细胞衰老这种评价组织微环境的危险因素还好,因为这个是每个细胞都能表现出来的。你如果选个某某某经典通路,只有几个基因,且相关基因在各种细胞中可能涉及不同功能的情况,这个不可控因素就太多了。除非你选个基因比较独特,且主要在某类细胞中表达的通路。

第2步没啥好说的,取交集是缩小基因集的常规操作,简单直接暴力。但是也很能反映生信套路的问题根节。去交集的过程,弱化了你基因集整体性,强化了差异基因的属性。取阳性结果会导致后面更容易出阳性结果。你这个阳性结果不是探索出来的,是你不断缩小范围取出来的。并且你这个取的逻辑还这么粗暴,势必导致最后的结果是假阳性可能很大。一味地缩小范围,是假阳性的症结所在。敢于做全差异基因分析的都是勇士。

第3步才是假阳性结果的可怕之处。甚至让研究人员对自己的结果深信不疑。很多ppi的构建都是基于已有实验研究的,也可以说基于真实结果。你随便放一堆共表达基因进去,都能给你把关联找出来,而且是真实关联哦。那么得到的结果必定是有实验文章支持的。那么你要做的就只是把文章结果联系到你的研究就行啦。

很可怕吧,有数据支持,又有实验证据支持,也难怪让人信以为真。这并非否认ppi的真实性,ppi都是真实数据,没啥好否定的。只不过你拿着一堆假阳性,放进去找其中的关键基因,当然也是假阳性结果拉。懂吗?我不是否认ppi的结果,只是你这里得到的为数不多的几个基因可能早就背离了你一开始探讨的危险因素。

到这里基本就能看出解决办法了。一定一定要对你选择的危险因素进行反复验证,多方面验证。确保你每一步拿到的结果都不要脱离你的初衷。拒绝硬解释很重要!这都看研究人员自己的良心了。

第4步二分类,知道为什么都做分类吗?好好的线性相关不做,去做二分类?分类不是要基于异质性的发现吗?因为分类能够做混淆,能够掩盖很多误差。这么做更容易出阳性结果啊。

但是分类是什么?无监督学习,是发现规律,而不是创造规律。没有异质性,没有明显的边界,就别硬分啦。

后面几步在一起说吧,具体的算法什么的,质量应该都可以。对算法需要的参数,小白可能不会管,有什么放什么,看过原文或者看过攻略的,应该也不会出错。问题在于,这些东西都是在做相关性分析。注意,相关性,不代表因果关系,少点强行解释,少点主观解释,多点客观分析。咱不追求意义,追求真实客观。


搞清楚每一步的真假阳性,反复验证,把方法用对,尤其把数据处理搞对,分析的时候客观一点。这就是解决之法,套路和算法都是没问题的,问题在于研究人员的良心,总不能怪杂志社审稿人不懂吧(笑死)。


套路本无错,错在没良心。

希望大家都有收获。

你可能感兴趣的:(某些生信套路的可靠性非常低)