欢迎关注”生信修炼手册”!
列线图,也叫诺莫图,在肿瘤研究的文章中随处可见,只要是涉及预后建模的文章,展示模型效果除了ROC曲线,也就是列线图了。那么列线图究竟是什么,列线图怎么得到,从图中我们可以得到哪些信息,带着这些问题,我们来阅读下面的这篇文献,地址如下
>https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4465353/
1. 列线图的定义
列线图是肿瘤预后评估的常用工具,在医学和肿瘤相关的期刊杂志上随处可见。典型的做法是首先筛选患者的生物学特征和临床指标构建一个预后模型,然后用列线图对该模型进行可视化。所以列线图是预后模型的可视化形式,是回归公式的可视化,一个典型的列线图如下所示
在列线图中,对于模型中的每一个自变量,不论是离散型还是连续型变量,都会给出一个表征该变量取值范围的坐标轴,在最上方有一个用于表征变量作用大小的轴,叫做Points, 每个变量通过自身取值范围的坐标轴的位置可以映射到该轴上,从而获得对应的作用大小的点数,比如size为5时,对应的points为30左右。
对于一个特定的患者,将各个自变量的值映射到points轴上,然后累加,即可得到total points, 从而根据total points轴和因变量坐标轴的位置关系,得到具体的因变量的值。比如上图中total points为140时,对应的2年期的无复发生存率为20%。
通过列线图,可以为每个患者提供一个精确的数字化的生存或者风险概率,可以辅助临床医生进行决策,体现了个体化医疗的思想。
2. 列线图的构建
构建列线图,其实就是构建预后模型,首选要明确以下3个模型
1. question,明确要研究的临床问题,其实就是确定自变量,要研究患者的哪些生物学指标,比如铜死亡或者铁死亡基因,哪些临床指标
2. population,选择合适的队列,建模需要患者的生物学指标和临床特征,生存信息,这些数据从哪里来,公共数据库还是自己积累的队列数据。为了更好的拟合模型,是准备了单个队列还是有多个队列信息,来检验模型效果
3. outcome,明确临床结局,比对通过建模研究患者预后的生存时间,还是复发风险等,选择OS, RFS等临床结局
步骤1和3确定了模型的自变量和因变量,通过步骤2确定了用于分析和建模的数据,就可以开始建模了。第一步是变量筛选,通过合适的方法选取用于建模的自变量集合,自变量太少会欠拟合,过多又容易出现过拟合的方法,因此变量筛选步骤非常的重要,显著影响模型效果。注意,样本的数量应该是自变量个数的10倍以上。
经过筛选,确定了用于建模的自变量集合之后,下一步就是确定模型,最常用的就是cox等比例风险回归模型了。首先用训练集数据建模,然后用额外的验证集或者交叉验证的方法进行评估。
3. 模型的性能
验证模型性能,最佳实践是用多个队列数据进行验证,所以一般需要三个数据集
1. 训练集
2. 内部验证集
3. 外部验证集
通过验证,可以发现模型过拟合等问题,从而采取减少变量等措施来改进模型。模型构建好之后,我们还要进一步评估模型的性能,这个模型性能有多好,是不是可以接受,才是就需要借助特定的性能指标,主要有一下几种
1)discrimination
区分度,描述一个模型正确区分发生了对应临床结局和没有发生临床结局患者的能力,用concordance index来表征,简称CI, 其本质就是ROC曲线下面积AUC,取值范围为0.5-1。
2)Calibration
校准度,描述一个模型预测个体发生临床结局的概率的准确性。在实际应用中,通常用校准曲线来表征。校准曲线展示了模型预测值与实际值之间的偏差,一个典型的校准曲线示例如下
横轴表示模型预测的不同临床结局概率,纵轴表示实际观察到的患者的临床结局的概率,用中位数加均值的errorbar 形式表征,并绘制了一条斜率为1的理想曲线作为参照,实际曲线越接近理想曲线,表明模型预测结果与实际结果的偏差越小,模型效果高好。
通过校正曲线,可以比较不同模型预测概率之间的准确性的差别,比如20%比80%准确。需要注意的是,校准曲线是在特定队列数据上得到的,是一个模型在一个具体的队列上的体现,因此是队列特异性的。
3)decision analysis curves
决策分析曲线,即DCA曲线,评价的是模型的临床实用性,典型的DCA曲线如下图所示
图中有3条曲线对应3种模型,核心是我们构建的预后模型,而另外两条就是辅助决策的模型,一条表示患者全部发生临床结局,另一条表示患者全部没有发生临床结局。横坐标是阈值概率,纵坐标是净收益,净收益用真阳性比例减去假阳性比例的差值,再乘以一个权重系数得到,这个权重系数是假阳性和假阴性两种临床后果的相对危害。
通过上图可以看到,当概率小于5%或者大于50%时, 预后模型的净收益与另外两条曲线几乎没差别,因此模型在这些区间是无助于临床决策的。
4. 列线图的限制
预后模型可以用于辅助决策,但也存在一定的局限性,比如
1)列线图认为生存结局随着时间线性变化
2)列线图的性能没有统一的接受标准
3)列线图对临床决策的帮助和对患者满意度的提高的作用不清楚
4)列线图的高的理论性能并不代表好的临床效应
最后,列线图作为预后模型的可视化方式,可以辅助临床决策,但是前提是必须有清晰明了的临床问题和模型构建,而且在应用于临床决策前,需要了解其性能和局限。只有这样,列线图才能更好的应用于临床。
·end·
—如果喜欢,快分享给你的朋友们吧—
原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!
本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。
更多精彩
KEGG数据库,除了pathway你还知道哪些
全网最完整的circos中文教程
DNA甲基化数据分析专题
突变检测数据分析专题
mRNA数据分析专题
lncRNA数据分析专题
circRNA数据分析专题
miRNA数据分析专题
单细胞转录组数据分析专题
chip_seq数据分析专题
Hi-C数据分析专题
HLA数据分析专题
TCGA肿瘤数据分析专题
基因组组装数据分析专题
CNV数据分析专题
GWAS数据分析专题
机器学习专题
2018年推文合集
2019年推文合集
2020推文合集
写在最后
转发本文至朋友圈,后台私信截图即可加入生信交流群,和小伙伴一起学习交流。
扫描下方二维码,关注我们,解锁更多精彩内容!
一个只分享干货的
生信公众号