bootstrap自采样目前广泛应用与统计学中,其原理很简单就是通过自身原始数据抽取一定量的样本(也就是取子集),通过对抽取的样本进行统计学分析,然后继续重新抽取样本进行分析,不断的重复这一过程N(大于500次以上)次,然后得到N个统计结果,然后进行区间分析,得到最终结果。
上一章我们简单介绍了BOOT重抽样获取回归方程系数95%可信区间,可能大家对BOOT重抽样的用处感觉还不是很明显。BOOT重抽样在我们统计中处理数据还是很有用的,本期我们来介绍一下怎么使用BOOT重抽样获取cox回归方程C-index(C指数)可信区间,这也是一个粉丝向我问的问题,我觉得蛮有典型性和实用性的,因此就拿出来讲讲。首先我们看看什么是C-index(C指数),C-index,C指数即一致性指数(concordance index),用来评价模型的预测能力。c指数是指所有病人对子中预测结果与实际结果一致的对子所占的比例。我们在既往的文章《手把手教你使用R语言建立COX回归并画出列线图(Nomogram)》中已经介绍了怎么计算C指数,我们继续以原来文章的数据和方法为例进行演示。
我们先导入数据和R包,这里使用的是survival包的肺癌数据,为什么我们要导入rms包呢,因为我们等会需要Hmisc包的rcorrcens函数来计算C指数
library(survival)
library(foreign)
library(rms)
bc<-cancer
bc <- na.omit(bc)
我们来看看数据,inst: 机构代码,time: 以天为单位的生存时间,status: 状态:审查状态 1=审查,2=死亡,age: 年龄,sex: 男=1 女=2,ph.ecog:由医师评定的 ECOG 表现评分。ph.karno:由医师评定的 Karnofsky 表现评分(差=0-好=100),pat.karno:由患者评定的 Karnofsky 性能评分,meal.cal:用餐时消耗的卡路里,wt.loss:过去六个月的体重减轻。
我们随便挑几个变量组成COX回归方程
f <- cph(Surv(time, status) ~ age + sex + ph.ecog + pat.karno +wt.loss,
x=T, y=T, surv=T, data=bc)
计算C指数
rcorrcens(Surv(time, status) ~ predict(f), data = bc)
1-0.344=0.656,即为C-index
虽然我们算出C指数了,但是rcorrcens函数并没有提供它的可信区间,如果您的论文需要提供这个数据,我们可以通过BOOT重抽样获取。
BOOT重抽样其实就是对函数的反复抽样,因此关键在于设计好抽样函数,这是后台粉丝发给我的代码,说计算不出来结果
c_index <- function(formula, data, indices) {
tran.data <- data[indices,]
vali.data <- data[-indices,]
fit <- coxph(formula, data=tran.data)
result<-survConcordance(Surv(vali.data$time,vali.data$death)~predict(fit,vali.data))
index<-as.numeric(result$concordance)
return(index)
}
我觉得问题主要在分成验证集和建模集这一句,
tran.data <- data[indices,]
vali.data <- data[-indices,]
BOOT重抽样本来就是取子集,没有必要再分成两个数据集,如果你一定要这样取也是可以的,换成另外的方法,我后期会说到。
现在我对粉丝的函数稍稍修改,改成如下:
c_index <- function(data,indices){
dat <- data[indices,]
vames<-c("age", "sex", "ph.ecog","pat.karno","wt.loss")
FML <- as.formula(paste('Surv(time, status)~',paste(vames, collapse = "+")))
fit<- coxph(FML,data =dat )
pr1<-predict(fit,newdata=dat)
Cindex=rcorrcens(Surv(time, status) ~ pr1, data =dat)[1]
Cindex=1-Cindex
Cindex
}
大家注意一下,这个函数有两个重要的地方,dat <- data[indices,]这句话是一定要有的,因为boot函数就是靠它来重抽样的,第二就是在function中cox回归不能直接写出来,大家看看我是怎么表达出来的。写好函数我们来调试一下,给它取个子集,也就是重抽样1次
c_index(bc,1:100)
results <- boot(data=bc, statistic=c_index, R=500)
print(results)
results$t
plot(results)
boot.ci(results,conf = 0.95)