预测模型| 1. : 并不是表面上看到的那么简单

预测模型| 1. : 并不是表面上看到的那么简单_第1张图片

在PubMed搜索关键词“Nomogram (列线图)”,数据显示该类文章的发文数量仍在逐年递增,而且在2020年呈爆发性增长,2021年仅两个月的时间其发表数已高达540多篇。其受欢迎程度不言而喻。

本期开始更新临床预测模型系列推文,结合经典文献从零学习预测模型构建、文章行文思路以及那些年踩过坑。

喜欢的小伙伴,点赞加转发支持一波吧!

Go

预测模型| 1. : 并不是表面上看到的那么简单_第2张图片

参考文献:BalachandranVP, et al. Nomograms in oncology: more than meets the eye. Lancet Oncol. 2015Apr;16(4):e173-80.

今天分享的是一篇Nomogram (列线图)综述,文章于2015年发表在柳叶刀杂志(IF=33.752)上。

文章前半部分主要介绍列线图的构建和性能评估,后半部分从各个方面介绍平时在构建过程中的错误理解和模型局限性等。 

此文是小编学习预测模型时教科书级别的文章之一,文章内容对论文的Introduction和Conclusions部分均有很大的参考价值,五星推荐。

目录

1. 介绍 

2. 列线图的构建 

2.1-研究问题、研究人群和结局 

2.2-方法 

3. 列线图的性能评估 

3.1-验证 

3.2-区分度 (Discrimination)

3.3-校准 (Calibration )

3.4-临床实用性 (Clinicalusefulness)

4. 列线图的限制 

4.1-随访时间假设 

4.2-报告和变量的标准 

4.3-患者满意度和效果

4.3-性能和临床实用性

4.4-患者的选择 

4.5-对患者的影响

5. 结论


红色是文中重点,蓝色是读后感


1. 介绍


列线图是复杂的统计学模型的可视化。

列线图的使用方法主要有两种:

1. 每个变量单独列出,将各亚变量量化为特定分数 (points)。然后,将所有变量的累积得分 (Total points)与结果量表进行匹配获得预测概率。

2. 开发网页计算器或动态列线图,输入特定变量并计算事件的可能性。

预测模型| 1. : 并不是表面上看到的那么简单_第3张图片

预测模型| 1. : 并不是表面上看到的那么简单_第4张图片

当前,评估肿瘤预后的金标准仍然是TNM分期系统。然而TNM系统有几个缺点: 

  • 1. 具有相同TNM分期但生存结局不同的患者会被迫进入同一疾病阶段,引入异质性。

  • 2. TNM分期不能将肿瘤、淋巴结或转移作为连续变量。

  • 3. TNM系统未纳入许多关键变量,例一般如果TNM分期太高,预后将会更差,它没有纳入控制预后的其他变量,如遗传差异、肿瘤有丝分裂率或组织学等【即综合性差】

鉴于TNM分期的局限性,列线图作为一种更简单、更先进的方法出现了。列线图的主要优点是能够根据患者和疾病特征来评估个体风险。在肿瘤学中,列线图有可能影响癌症护理的各个方面:

  • 术前列线图可以评估手术切缘和淋巴结转移的风险,

  • 可以帮助临床医生识别那些可能从更大范围的手术中获得更多益处的患者

  • 术后列线图估计复发,肿瘤特异性生存期,总生存期,辅助治疗的益处和治疗对生活质量的影响,

  • 可能在所有方面帮助患者和医生做出决定

列线图虽然是评估预后的重大创新,但想发挥其正确的临床应用需要对列线图的研究人群、构建方法和结果进行准确理解,以明确评估其临床适用性。在这里,我们介绍使用列线图的基本原理,阐明其构造、解释和应用,并解释其常见的误解。


预测模型| 1. : 并不是表面上看到的那么简单_第5张图片

2. 列线图的构建


2.1-研究问题、研究人群和结局 

【有意义,实用性强】

列线图构建中最重要的步骤是选择一个好的问题——即一个可以通过列线图得到解决的临床问题,一个有价值的临床问题;

它应代表患有该疾病的一般人群,以便读者可以评估其对这类患者的适用性。单中心数据可有更完整的数据集,但可能存在偏差,这时可以通过使用多中心或国家数据库来克服。

研究结局应有一个清晰的、被广泛接受的定义并且可被其他数据重复。

2.2-方法

2.2.1 选择变量:根据临床共识(即已知与预后相关的因素):这种方法避免了基于不同数据的变量的排除和纯粹基于统计显著性的选择。治疗本身应该避免作为一个协变量,除非有来自随机临床试验的验证数据。

【即构建模型使用的变量必须要适用于所有数据,而不是仅仅对你的数据有效(普遍性),注:变量筛选方法很多,但绝大多数是基于自己数据,这样的列线图其实普遍性有待验证】

2.2.2 选择统计模型:Cox/logistic回归等。

总结一下小编见过的变量筛选【五花八门】 

1、单因素p<0.05 (或0.1/0.15/0.2等) 的变量纳入多因素回归,多因素p<0.05的变量再纳入模型。最常用

2、逐步回归法(向前、向后、双向回归)、全子集回归、LASSO回归等结合赤池信息准则(AIC)、方差分析等。次常用

3、根据临床意义直接将变量纳入多因素模型,挑选有意义再建模。

4、根据临床意义直接建模。

5、某个因素在临床中与预后相关,即使数据结果显示没意义,也可强行纳入 连续变量通过临床实际分割或通过ROC曲线、KM曲线、RCS曲线、均值、中位数、三分类等转分类变量。

小结:方法得当且能自圆其说即可。但最有实际价值且能体现模型普遍适用性的方法应是根据变量的临床意义而非统计学结果。

以上方法会在之后推文中结合经典文献展示。

2.2.3 选择统计模型后,进行多变量分析,以衡量变量和结局之间的关联,调整模型中的所有其他变量。

多变量分析中包含的变量应该遵循Harrell的指南 (感兴趣事件的数量应该超过变量的数量至少10倍)。然而,纳入更多变量并不一定会有更高的精度,而是会导致过度拟合,应该避免。然后,利用软件或公式推导变量的风险评分,构建成列线图。

3. 列线图的性能评估 


3.1-验证

定义:验证是在不同人群中测试模型【即使用外部数据验证模型】,以获得对模型性能(辨别性、校准性和临床有效性)【对应AUC/C指数、校准曲线、DCA曲线等】的评估,并判断其对这些人群的适用性。

最好在许多不同的数据集中进行外部验证,这是黄金标准,应该在任何可能的情况下获得。但很少有进行外部验证的 (如图)【一般有外部验证的文章,较为容易被接受】

预测模型| 1. : 并不是表面上看到的那么简单_第6张图片

交叉验证和自举抽样是内部验证,这些方法可以防止数据过度解释,但仍不能消除由于变量和阈值选择所固有的过度拟合而产生的所有误差,也不能评估不同患者群体的准确性。

如果在验证数据中评估的性能指标仍在临床可接受范围内,列线图是合格的,否则要进行改进。性能上的差异可通过仔细检查模型建立过程以及开发和验证数据集之间的差异来改进模型。

3.2-区分度 (Discrimination)

定义:区分度是一种评估模型能够区分发生事件病人和发生事件病人的能力。

常用指标是ROC曲线下面积(AUC)和回归模型的C指数,二者可以交替使用。例AUC=0.65,即该模型有65%的能力区分有事件的病人和没有事件的病人。一般0.5为偶然无区分能力,1为100%区分能力。

如果模型预测一个患者2年复发风险(AUC为0.78)为75%,即2年后患者的复发风险预测为75%,列线图对此结果的区分( identify )能力为78%。值得注意的是,AUC并不能估计预测的准确性【即AUC有78%把握认为患者复发率为75%,而这个75%准不准,AUC评估不了 ,还需其他方法验证】。

3.3-校准 (Calibration) 

定义:校准是评估列线图估计的风险与实际的风险的接近程度,通过校准图来描述,如图。

预测模型| 1. : 并不是表面上看到的那么简单_第7张图片

注意:这次是校正而不是辨别(区分)。它表明列线图预测的风险与实际风险有多接近,即校正告诉患者2年复发风险为75%是多么准确

【图中x/y轴分别代表列线图预测的和实际的复发风险,最最理想的状态是红色的45°线,即预测与实际完全一致,但这只是理想。蓝线则是现实中列线图预测和实际预测的关系,即它总有些偏差,偏差太大就要修改模型了】。

小结一下


AUC或C指数是辨别(区分)能力:Discrimination,即有多少把握确定患者复发率为75%。

校准图是准确性:Calibration,即评估预测的这个75%有多准

这俩指标均是特定数据的特定表现,即评估一下模型与数据合适不合。因此,换用不同数据他们的值是变化的。

3.4 临床实用性 (Clinical usefulness)

定义:临床实用性评估列线图辅助的决策是否改善了患者的结果。

列线图辅助决策是否能改善患者预后的答案在于前瞻性评估——随机将患者分配到基于列线图或非基于列线图的决策中,并进行结果比较。

但这不现实,因此人们引入了DCA曲线(decision analysis curves,决策分析曲线)

预测模型| 1. : 并不是表面上看到的那么简单_第8张图片

【解释:x=阈概率,即触发医疗干预的概率,y=在此概率下实行处理所收到的净获益。紫线水平线代表了所有患者均不触发干预,绿色线所有或者均触发干预,蓝色线是列线图指导下触发一医学干预,可以看出紫线净收益为0,在相同阈概率(x)下,很明显蓝线所获得的净收益高于绿线。一般情况下,模型曲线越是远离xy轴其临床实用性越强】

4. 列线图的限制


4.1 随访时间假设 (Time assumptions)

列线图所预测结果随时间推移是保持不变的。但实际上,随着治疗的改进、早期检测和自然史的改变,疾病的结局是变化的。因此,列线图的性能会随着时间的推移而变得不那么准确。

4.2 报告和变量的标准 (Standards of reporting and variability)

虽然Discrimination和Calibration同样重要,但大家更多的在汇报AUC,而不怎么报道校准曲线。

列线图性能也高度依赖于变量测量方法,如对PSA不同的测量方法,会产生不同结果。此外,纳入更多的变量并不意味着更高的准确性,也可能增加了列线图的不准确性。

对AUC的理解的错误。如果列线图A和列线图B的AUC分别为0.66和0.76,它并不意味着B比A好,这可能只是表明了它们数据的特征的差异。

4.3 患者满意度和效果 (Patient satisfaction and outcomes)

虽然在列线图评估中Discrimination和Calibration同样重要,但向患者传达这些概念具有挑战性。

有研究比较了列线图与临床医生评估,结果显示列线图优于临床医生的判断。然而,在他们搜索的22项研究中,只有13项(59%)的研究实际上表明列线图比临床医生的判断更好。列线图比临床医生的判断更好的结论也纯粹是基于AUC,这并不等同于提高临床效用。

4.4性能和临床用途 (Performance and clinical usefulness)

尽管列线图表现良好,但却缺乏临床应用价值。列线图是否能提高患者和医生的满意度、生活质量和肿瘤预后的评估往往被忽视。即列线图A的AUC大于列线图B的AUC,并不意味着列线图A在临床上更有用。

4.5 患者的选择 (Patient selection)

使用列线图的一个论据是依风险分层来确定是否需要额外的治疗。尽管列线图可被用来定义临床试验的合理性,但在这些情况下的治疗决策应遵循列线图确定的纳入标准和与治疗相关的后续获益,而不仅仅是列线图估计的风险

4.6 对患者的影响 (Effect on a patient)

用一个糟糕的列线图预测发生率可能会给患者和家属带来很大的痛苦,而围绕列线图解释的混乱可能会加剧这种痛苦。还有可能影响患者对其疾病的主观印象、对家人和医生的关系以及对更多测试的渴望等。

5. 结论


列线图是现代医疗决策的重要组成部分。精心构造的列线图旨在解决一个集中的问题。

然而,在应用于临床决策之前,它们必须经过严格的审查,它们的性能和局限性需要得到认可。只有这样,列线图才能为患者提供更好的预后信息。


参考文献

预测模型| 1. : 并不是表面上看到的那么简单_第9张图片


预测模型| 1. : 并不是表面上看到的那么简单_第10张图片

END

本公众号致力于打造一个实用的科研干货和临床学习资料分享平台,假如你有临床和科研上的问题或经验分享,请私信我。

感谢阅读,如有错误请指正!

预测模型| 1. : 并不是表面上看到的那么简单_第11张图片

你可能感兴趣的:(机器学习,人工智能,深度学习,数据分析,大数据)