还是老习惯,给出官网教程,至于你是看还是不看,它就在那里,等着你的深入研究~
https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/
往期教程:
(一)WGCNA分析中的软阈值
(二)WGCNA分析中如何选择软阈值?
(三)聚类树Cluster Dendrogram图
WGCNA分析图文详解专题中要解释的第三张图,所有结果中最主要的结果图恐怕就是这张了:
官方注释:
Figure 1: Module-trait associations. Each row corresponds to a module eigengene, column to a trait. Each cell contains the corresponding correlation and p-value. The table is color-coded by correlatio according to the color legend.
这张图有这几个部分:
1,横坐标:表型性状(trait)。那么,根据表型性状是连续型变量和分类变量如何数值化?
2,纵坐标:对应模块,用每个模块的eigengene来表示这个模块。那么eigengene又是什么,怎么理解这个eigengene呢?
3,图中的小格子:其中的数值代表什么?
4,每个性状与模块之间的相关性计算是否独立的:即表型放在一起分析和分开单独分析是否有不同?
小面我们来一一解读。如有理解错误,还请各位大侠批评指正。
1,横坐标:表型性状(trait)
教程中的数据如上图,行代表样本,列代表性状重量weight(g),长度length(cm)等。总共有134个样本,26个性状。
这里我截取了一小部分进行展示,一列代表一个性状。重量和长度都是连续性变量,直接用就好。分类变量如男女,可以男1,女0进行数值化。
2,纵坐标:对应模块的eigengene
官网给出的解释是这个样子的:
Eigengene,即每个模块的第一主成分。
这里小编自己的理解就是这个模块有134个样本,n个基因,然后用pca主成分分析对这n个基因进行降维取其第一主成分作为这个模块的特征。
3,图中的小格子中的数值代表什么?
这里我们得到横坐标的表型性状向量和纵坐标的每个模块的特征代表eigengene值向量,然后就可以计算每个模块和性状之间的相关性了。我们知道计算两个向量之间的相关性有三种方法:"pearson", "kendall", "spearman"。
官方这里采用的pearson计算方法。
核心代码:moduleTraitCor = cor(MEs, datTraits, use = "p")
嗯,用的cor函数。默认的method=”pearson”。那么这里图中的小格子中的数值就代表每个性状和每个模块的特征值之间两两计算的相关性值以及对应的pvalue。
颜色表示红色越深,越正相关;绿色越深,越负相关。并且,在这里你如果理解了这个相关性的计算,那么应该就可以理解不同性状之间与模块计算相关性时是相互独立的。
重点,敲黑板!!!
这个图说难也不难,但是,却是整个WGCNA分析的最主要的结果了。有个地方很关键,就是将临床表型转换为数值的trait的时候,直接涉及到了后面相关性的计算。如果转换不合理很可能得到不好的结果哟。
今天就说到这里,欢迎大家留言讨论。我们下期再见~
参考资料:
1,https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/
2,AGeneral Framework for Weighted Gene Co-Expression Network Analysis, Stat Appl Genet Mol Biol. 2005;4:Article17. Epub 2005 Aug 12