模型构建完成后需要对模型进行评估和验证其性能。模型预测的生存率与实际的差距有多大呢?一般是看校准曲线。
例:一个模型(其C指数为0.8)评估某位患者5年复发率为70%。说明该模型有80%的把握确认复发率=70%。那70%这个数与实际相差有多大呢,那就需要看校准曲线了。
从这个例子可以看出,C指数或AUC值是判断模型的区分能力的,即有多大把握预测复发率为70%,而校准曲线是看与预测与实际相符程度的,即预测的这个70%复发率与实际复发率有多大差别。
统计学方法部分,一般是介绍校准曲线的目的、使用方法和抽样次数等;
在汇报结果时:描述校准曲线时应围绕精确性和一致性展开,以此来说明模型的预测性能很好。
载入R包和数据: https://t.1yb.co/ncpr
#1.r包
library(rms)
#2.载入数据,status=0为复发
rm(list = ls()) #清理环境
aa<- read.csv('校准曲线.CSV')
names(aa)
#3.数据转换
#用for循环将本例中第4-9个变量批量转为分类
for (i in names(aa)[c(4:9)]){aa[,i] <- as.factor(aa[,i])}
1、设置数据环境
nomo<-datadist(aa)
options(datadist='nomo')
2、构建列线图的Cox回归模型
nomo1 <- cph(Surv(time,status==0)~age+n+hr+her2+g+rt,
x=T,y=T,
data=aa,
surv=T,
time.inc=12*5#示例数据time=月所以12*5就是评估5年的校准曲线
)#这里的time.inc一定要与下面画校准曲线的函数一致,不然图会出错!
3、模型校准曲线绘制
p<- calibrate(nomo1,#模型名称
cmethod='KM',
method='boot',#检测方法
u=12*5,#评估的时间,注:一定要与模型的时间一致
m=1500, #每次抽样的样本量,
B=1000)#抽样次数
#注,m值的确定:m=数据总数/3-4,即你想让最终的校准曲线有3个点,那就是m=数据总数/3
#B值一般1000,电脑配置不好可以选500,300,100等
plot(p,
add=F,#增加第二条线
conf.int=T,#95%CI
subtitles = T,#副标题
cex.subtitles=0.8, #副标题大小
lwd=2,#95%CI粗细
lty=1,#95%CI实线,2=虚线
errbar.col="blue",#95%CI颜色
xlim=c(0.0,1),#x轴范围
ylim=c(0.0,1),
xlab="列线图预测的5年OS",
ylab="实际5年OS",
col="red")#曲线颜色
4、校准曲线美化
plot(p,
add=F,
conf.int=T,#95%CI(蓝色线)
subtitles = F,#关闭副标题
cex.subtitles=0.8,
lwd=2,
lty=1,
errbar.col="blue",
xlim=c(0.25,0.4),#调节x.y轴刻度范围
ylim=c(0.25,0.4),
xlab="列线图预测的5年OS",
ylab="实际5年OS",
col="red")
5. 3年和5年校准曲线画在一张图上
plot( )里add=T。
将2/3步中模型和校准的时间均设定为12*3,
修改一下颜色以作区别。
调整x.y刻度范围使两曲线合适显示
plot(p,
add=T,
conf.int=T,
subtitles = F,
cex.subtitles=0.8,
lwd=2,
lty=1,
errbar.col="orange",
xlim=c(0.25,0.7),
ylim=c(0.25,0.7),
xlab="列线图预测的3年和5年OS",
ylab="实际3年和5年OS",
col="#407600")
#加上图例
legend("bottomright", legend=c("5年", "3年"), col=c("red", "407600"), lwd=2)
#调整对角线
abline(0,1,lty=3,lwd=1,col="grey")
注意:本例由于数据量大,95%CI小,再加上患者死亡率较低,两个曲线分布差异有点大。所以强行将两曲线放在一个图里并不十分美观。
这里只是做一个简单的示例,大家根据自己实际需要自行选择。
文章数据链接:https://t.1yb.co/ncq0