Kawasaki disease and WGCNA

参考文章:

  • illumina beadchip 芯片原始数据处理
  • 找不到某些GEO数据的表达矩阵肿么办

本文主要讲illumina beadchip 芯片原始数据处理,基于数据GSE73461

  • 原始表达矩阵存在负值(无法进行下游分析),所以必须自己处理原始数据
> x <- read.ilmn(files="GSE73461_Raw_data.txt",
+                expr="Sample",
+                probeid="ID_REF",
+                other.columns="Detection Pval")
Reading file GSE73461_Raw_data.txt ... ...
Error in readGenericHeader(fname, columns = expr, sep = sep) : 
  Specified column headings not found in file
  • 上一步现实原始数据,列名不统一,read.ilmn函数无法识别;所以就需要修改
rm(list = ls())  ## 魔幻操作,一键清空~
options(stringsAsFactors = F)#
# 读取原始数据
raw_data=read.table('GSE73461_series_raw_matrix.txt.gz',sep='\t',quote = "",fill = T,
             comment.char = "!",header = T) # 提取表达矩阵
raw_data=raw_data[,-2]
a=raw_data
## 修改列明是为了统一名称,方便后续read.ilmn能够识别expr="Sample",other.columns="Detection Pval"
colnames(a)[seq(2,919,by=2)]=paste0("Sample",seq=".",1:459)
colnames(a)[seq(3,919,by=2)]=paste0("Detection Pval",seq=".",1:459)
#再次导出数据为TXT文本,方便read.ilmn读入
write.table(a,"limma.txt",sep='\t',quote = FALSE) #quote = FALSE取消列明加用引号

原始数据处理

#1.读取、背景校正和标准化
x <- read.ilmn(files="limma.txt",
               expr="Sample",
               probeid="ID_REF",
               other.columns="Detection Pval")
## Reading file GSE16997_raw.txt ... ...
y <- neqc(x,detection.p="Detection Pval")

#2.探针过滤
x$other$Detection[1:4,1:4]
dim(y)
expressed <- rowSums(y$other$`Detection Pval` < 0.05) >= 115 ;table(expressed)
y <- y[expressed,]
dim(y)

#3.提取表达矩阵
exp = as.data.frame(y$E)

一些概念

1.关键基因筛选

FilterGenes= abs(GS1)> .2 & abs(datKME$MM.brown)>.8
  • WGCNA如何从module中挖掘关键基因
  • gene significance:对于基因定义了GS值,表征基因和表型之间的相关性。简称GS, 将该基因的表达量与对应的表型数值进行相关性分析,最终的相关系数的值就是GS, GS反映出基因表达量与表型数据的相关性,计算GS的代码如下
  • module membership:1.Hub基因筛选需要确定模块成员(module membership,MM),以确定基因与给定模块之间的相关性。2.简称MM, 将该基因的表达量与module的第一主成分,即module eigengene进行相关性分析就可以得到MM值,所以MM值本质上是一个相关系数,如果基因和某个module的MM值为0,说明二者根本不相关,该基因不属于这个module; 如果MM的绝对值接近1,说明基因与该module相关性很高。

2.样本聚类分析

  • 使用dist()函数计算样品之间的欧式距离,并通过聚类查看是否存在异常样品。
sampleTree = hclust(dist(datExpr0), method = "average")
  • 诚意满满的WGCNA分析,不进来看看吗?
  • 继续来看pheatmap那些有趣的事情

3.GO/KEGG

  • 3分钟了解GO/KEGG功能富集分析
  • 并用clusterProfile包对Hub基因在京都基因与基因组百科全书(Kyoto Encyclope⁃dia of Genes and Genomes,KEGG)中进行通路富集分析,在基因本体论(gene Ontology,GO)数据库中进行基因富集分析。

4.排序并取方差前25%的基因筛选

exp <- as.data.frame(dat)
exp$sd=apply(exp,1,sd)
exp=exp[order(exp$sd,decreasing = TRUE),]
dim(exp)
tj <- quantile(exp$sd,0.75);tj
exp <- exp[exp$sd >= tj,]
dim(exp)
  • 明码标价之公共数据集的WGCNA

ROC

  • 进阶版ROC曲线来了!教你优雅地给ROC“添油加醋”!你一定会爱上!(附代码)

讨论:

  • 【专家笔谈·儿童川崎病】川崎病发生机制研究
  • 【标准·方案·指南】川崎病冠状动脉病变的临床处理建议(2020年修订版)
  • 专题笔谈│川崎病发病机制及治疗研究进展

你可能感兴趣的:(Kawasaki disease and WGCNA)