WGCNA数据导入

进行WGCNA要注意,WGCNA输入(INPUT)的是:行对应着一个样品,列对应着探针的矩阵或者数据框。

1.数据准备

做基因表达谱构建,我们必须要有这两个文件(如图),前往GEO数据库下载。


image
1.GPL探针文件
图2
2.表达矩阵(Series Matrix File)
图3

2.数据处理

1.将表达矩阵导入R中,并且进行转置。使每一行对应着一个样品,每一列对应着一个探针(变量)。这与在limma中是的表达矩阵是不一样的。这个是要注意的!WGCNA输入(INPUT)的一个行对应着一个样品,列对应着探针的矩阵或者数据框。

library(parallel)

library(Biobase)

library(BiocGenerics)

data = getGEO(filename = "/...._series_matrix.txt")

myMatrix <- data@assayData$exprs

datExpr0 = as.data.frame(t(myMatrix))#转置

names(datExpr0) = rownames(myMatrix)#每列对应着一个样品

rownames(datExpr0) = colnames(myMatrix)#每行对应着一个探针

2.检查数据集中的缺失值(missing values)和去除离群样本点(outlier)。

检查数据集中是否含有过多的缺失值,如果没有缺失值则返回TRUE,否则返回FLASE。

gsg = goodSamplesGenes(datExpr0, verbose = 3);
gsg$allok
sampleTree = hclust(dist(datExpr0), method = "average");
# Plot the sample tree: Open a graphic output window of size 12 by 9 inches
# The user should change the dimensions if the window is too large or too small.
sizeGrWindow(12,9)
#pdf(file = "Plots/sampleClustering.pdf", width = 12, height = 9);
par(cex = 0.6);
par(mar = c(0,4,2,0))
plot(sampleTree, main = "Sample clustering to detect outliers", sub="", xlab="", cex.lab = 1.5,
     cex.axis = 1.5, cex.main = 2)

你可能感兴趣的:(WGCNA数据导入)