本期内容为[跟着NC学作图]--生存分析(Survival analysis)
生存分析是人类癌症分析中常用到的分析之一。通过对表达水平分类,分成“High”组合“low”组,再进行生存分析即可。
最近,我打算做一系列的生物信息学相关的教程,这个系列是付费课程。主要包括转录组的组装(有参和有参)、lncRNA的鉴定及功能预测、可移动mRNA和lncRNA的鉴定、以及[R语言可视化-精美图形绘制系列]。
--
代码部分:
- 导入数据
vpc.clinical <- readRDS("./Data/VPC_clinical.Rdata")
> vpc.clinical[1:5,1:10]
Sample Duplicates GC Length Fails Total_sequences_after_trim group
411 V33-33_S5_L007_R1_001_val_1 36.01205 50 147.3785 8.333333 61644068 VPC
395 V28_S3_L003_R1_001_val_1 73.26805 50 147.9611 25.000000 57841221 VPC
357 V18_S7_L003_R1_001_val_1 83.90558 50 148.0132 16.666667 82224327 VPC
399 V29_S4_L002_R1_001_val_1 65.04211 59 147.2557 25.000000 73173742 VPC
439 V46_S5_L002_R1_001_val_1 50.52673 53 147.1128 16.666667 66938216 VPC
experiment group.cp simpleName
411 Jess VPC V33-33
395 Jess VPC V28
357 Jess VPC V18
399 Jess VPC V29
- 分析处理、分类
vpc.clinical$GR_RPKM <- vpc.gr$GR_RPKM[match(vpc.clinical$Sample,vpc.gr$Sample)]
survival.data.sub <- subset(vpc.clinical,duplicated ==0)
survival.data.sub$OS.time <- as.numeric(survival.data.sub$`Published_Days to death or last followup`)
survival.data.sub$OS <- survival.data.sub$Published_Censored...14
survival.data.sub$OS[which(survival.data.sub$OS=="Yes")] <- 1
survival.data.sub$OS[which(survival.data.sub$OS=="No")] <- 2
survival.data.sub$OS <- as.numeric(survival.data.sub$OS)
survival.data.sub$RFS.time <- as.numeric(survival.data.sub$`Published_Days to progression or last followup`)
survival.data.sub$RFS <- survival.data.sub$Published_Censored...12
table(survival.data.sub$RFS )
survival.data.sub$RFS[which(survival.data.sub$RFS=="Yes")] <- 1
survival.data.sub$RFS[which(survival.data.sub$RFS=="No")] <- 2
survival.data.sub$RFS <- as.numeric(survival.data.sub$RFS)
survival.data.sub$GR_RPKM_log <- log2(survival.data.sub$GR_RPKM+1)
survival.data.sub$cluster <- "Low"
survival.data.sub$cluster[which(survival.data.sub$GR_RPKM_log>0)] <- "High"
- 提取数据
survival.data.sub$cluster <- factor(survival.data.sub$cluster,levels=c("High","Low"))
table(survival.data.sub$cluster)
> table(survival.data.sub$cluster)
High Low
16 37
- survfit()函数分析
OS.fit <- survfit(Surv(OS.time, OS) ~ cluster,
data = survival.data.sub)
- 绘图
ggsurvplot(OS.fit,size = 1,# change line size
palette = c("#2E9FDF", "#E7B800"), # custom color palette
conf.int = FALSE, # Add confidence interval
legend.title = "GR",
pval = TRUE, # Add p-value
risk.table = TRUE, # Add risk table
risk.table.col ="strata", # Risk table color by groups
ylab="Overall survival",
xlab="Time (days)",
legend.labs=c("High","Low"))
同样的操作
RFS.fit <- survfit(Surv(RFS.time, RFS) ~ cluster,
data = survival.data.sub)
ggsurvplot(RFS.fit,size = 1,# change line size
palette = c("#2E9FDF", "#E7B800"), # custom color palette
conf.int = FALSE, # Add confidence interval
legend.title = "GR",
pval = TRUE, # Add p-value
risk.table = TRUE, # Add risk table
risk.table.col ="strata", # Risk table color by groups
ylab="Progression-free survival",
xlab="Time (days)",
legend.labs=c("High","Low"))
往期文章(总汇)
01-[R语言可视化-精美图形绘制系列]--精美火山图
[02-R语言可视化-精美图形绘制系列--柱状图
[03-R语言可视化-精美图形绘制系列--功能富集分析
[04-R语言可视化-精美图形绘制系列—多组GO富集可视化
05-[R语言可视化-精美图形绘制系列--堆积图]
06-[R语言可视化-精美图形绘制系列--组间相关性分析]
07-[R语言可视化-精美图形绘制系列]--Mental分析
08-[R语言可视化-精美图形绘制系列--复杂热图+两图渐变连线]-【转载】
09-[R语言可视化-精美图形绘制系列--桑基图(Sankey)]
10-[R语言可视化-精美图形绘制系列--柱状图误差线标记]
11-跟着NC学作图 | 柱状图与相关性图
12-[R语言可视化-精美图形绘制系列--GO、KEGG富集通路关联图]
13-[跟着“基迪奥生物学”作图]--截断图
14-[R语言可视化-精美图形绘制系列]--显著性箱线图
14-2[R语言可视化]--箱线图不同的画法及参数设置 | 学习笔记
15-[R语言可视化-精美图形绘制系列]--组内相关性分析
16-[R语言可视化-精美图形绘制系列]--主成分分析(PCA)
017-[跟着NC学作图]--箱线图(一个函数获得Mean、SD、P值)
--
小杜的生信筆記 ,主要发表或收录生物信息学的教程,以及基于R的分析和可视化(包括数据分析,图形绘制等);分享感兴趣的文献和学习资料!