小鬼的WGCNA图文详解(一)--软阈值

最近有很多人在给他们做完了WGCNA分析之后,跑过来问结果中各种图片的意思。我就整理一下WGCNA分析结果中常见图片的含义吧,如有理解错误,还请各位大神批评指正!

首先,当然还是老习惯,给出官网教程,至于你是看还是不看,它就在那里,等着你的深入研究~

https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/

下面是我今天要解释的一张图:

image.png

怎么样,是不是很眼熟,是不是很多文献中都出现过?那么你真的看懂了这张图的含义么?好,小编要开始装逼了。

关于这张图,有一个很重要的参数需要理解,那就是这张图里面的横坐标Soft Threshold,也就是通常所说的软阈值。那么,有软阈值,你是不是还会想应该有一个对应的硬阈值?没错,真的有这个参数,叫Hard Threshold

那么我们做WGCNA的时候为什么不用硬阈值而是选择软阈值呢?

为了说清楚这个软阈值的问题,进行一下思路的说明:

1,网络中边的理解:WGCNA分析全称为Weighted Gene Co-Expression Network Analysis,即加权的基因共表达网络分析。网络中基因与基因之间是否连边取决于这两个基因是否发生显著共表达:nodes represent genes and nodes are connected if the corresponding genes are significantly co-expressed across appropriately chosen tissue samples

2,真实网络与随机网络的特征差异

1,网络中边的理解

计算共表达有很多方法,官网教程中给出的方法是用皮尔森相关系数(Pearson) correlation coefficient:It is standard to use the (Pearson) correlation coefficient as a co-expression measure, e.g., the absolute value of Pearson correlation is often used in a gene expression cluster analysis.

那么现在问题来了:我得到了两个基因的相关系数值之后,如何决定这两个基因在构建网络时是否连边呢?

此时你可能会想到:

1,定义一个阈值,比如有统计学意义的r>0.9,那么就连边;否则,就不连边。这个办法就是‘hard’ threshold,也即不加权(unweighted)

这个办法有以下缺点:

第一:如何确定这个阈值?这个阈值比较人为,有人觉得0.9就是强相关,也有人会认为0.8也是强相关。

第二:对于真实的生物学网络,这种二元定义连边的方法是否真的适合?

2,真实网络与随机网络的特征差异

真实的生物学网络比如:

  • human disease network,
  • gene co-expression networks,
  • protein-protein interaction networks,
  • cell-cell interaction networks,
  • the world wide web and social interaction networks。
image.png

他们都有一个特征,那就是网络中节点的度服从幂率分布(power law) p(k)~ k−γ,即无标度网络(Scale-free networks)

image.png

而随机网络一般服从泊松(Poisson)分布

image.png

这两个网络分布的特点是:真实网络中绝大部分点的度都很低,只有少数的点(即常说的hub节点)度很高,而随机网络中绝大部分的点的度都处于上图中的峰值处,即度相似。

无标度网络节点的度分布特征使得它有一个很大的特点,那就是稳健性:随机去除网络中的一个节点,网络还能依然保持(绝大多数节点的度很低)。但是它也有脆弱的一面:那就是去除网络中的hub节点,网络就散了。但是hub节点只是网络中极少数的几个节点,被攻击的概率非常小。

基于以上,即‘hard’ threshold的缺点和应用于真实网络造成的信息丢失(参考文献中有说明)等原因,官网教程中的作者提出了一种方法即用‘soft’ thresholding 来权衡网络中的连边。

就是将相关系数的值[0,1]通过一个换算映射到[0,1],也即加权(weighted)的思想:

image.png

那么这里的参数β就是软阈值。

文章中通过大量的模拟数据和真实数据证明,与不加权网络相比,加权的网络能得到更多的 robust results。

说完了这个软阈值的问题,那么上面的图该怎么看呢?如何选择β?请看下回分解~~~

参考资料:

1,https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/
2,A General Framework for Weighted Gene Co-Expression Network Analysis, Stat Appl Genet Mol Biol. 2005;4:Article17. Epub 2005 Aug 12

你可能感兴趣的:(小鬼的WGCNA图文详解(一)--软阈值)