文献阅读-nomogram文章(五)

题目:《Factors Affecting Sentinel Node Metastasis in Thin (T1) Cutaneous Melanomas: Development and External Validation of a Predictive Nomogram》
28分JCO ;logistic回归模型;终点为T1期皮肤黑色素瘤是否发生前哨淋巴结转移。
ref:临床预测模型(Nomogram)第11篇(IF=28分):T1期皮肤黑色素瘤前哨淋巴结转移预测

一.纳入训练集和测试集

纳入病人

二.比较训练集和测试集里病人的特征

分别比较:(1)训练集和验证集里行SNB患者的基线特征;(2)训练集和验证集里未行SNB患者的基线特征;(3)训练集里行SNB的患者中,SNB阳性和SNB阴性患者基线特征的比较;(4)训练集里行SNB的患者中,SNB阳性和SNB阴性患者基线特征的比较。
统计方法的选择:对于年龄、肿瘤厚度等连续性变量,采用wilcoxon秩和或Mann-Whitney U秩和检验;对于性别、是否形成溃疡等分类变量,用Fisher精确检验。

统计方法选择

秩和参考课本p147,fisher参考课本p128。
疑问:为什么所有连续变量的比较都使用了秩和检验?是不是验证了它们都不属于正态分布?为什么分类资料都采取卡方检验里的Fisher精确检验,是否验证了理论频数T<1或总例数<40?
看一下google:
google

当在列联表里数据分布差异很大时,适宜用fisher exact test。在训练集和测试集里,SNB阳:SNB阴在15:1以上,因此比较SNB阳和SNB阴的基线分类变量特征(3)(4)适宜用Fisher exact test。但是为什么比较(1)(2)也用Fisher exact test?

三.单因素logistic回归

行单因素logistic回归,分析自变量和SNB阳性的相关性,筛选出9个有统计意义的变量。

四.随机森林

用随机森林筛选,计算p值和调整后p值(FDR),筛选出6个变量,纳入多因素logistic模型,6个变量都有统计学显著性。

五.构建nomogram

用6个变量构建nomogram,如下图所示:


nomogram

六.验证nomogram模型

1.校准度

分别在训练集和测试集中验证校准度,画出calibration plot,得到结果为:mean predicted probabilities close to observed probabilities。随后进行Hosmer-Lemeshow test,得到p值0.8,不拒绝H0:predicted and observed probabilities无差异。作者这里描述的是:HL test的结果支持了calibration plot的结果。

校准度

2.区分度

分别在训练集和测试集验证区分度,计算模型的c-index以及每一个单变量拟合的模型的c-index(针对二分类logoistic回归的C-index等价于ROC曲线下面积(AUC、c-Statistics))。

3.DCA

先看结果:

DCA

结果解读:
A图:开发这个nomogram预测模型,就是为了判断患者是否需要行SNB。可以看出nomogram模型与(1)所有患者都不行SNB(水平蓝线);(2)所有患者都行SNB(灰线);(3)6个单变量分别构建的预测模型这1+1+6共8个模型相比,在所有阈值水平上均有净获益。
水平蓝线和灰线代表两种极端情况。水平蓝线表示所有样本都是阴性(Pi < Pt),所有人都不治疗,净获益为0。灰线表示所有样本都是阳性,所有人都接受了治疗,净获益是个斜率为负值的反斜线。
B图:nomogram预测模型与6个单变量分别构建的预测模型相比,在减少不必要的SNB方面均有优势。
随后,作者将nomogram预测模型与基于两个指南构建的预测模型相比,发现nomogram有更优的DCA表现。

七.局限性

1.未考虑基因因素。
2.对缺失值的处理是直接剔除。

八.感想

1.Nomogram区分度和校准度的验证一定要在训练集和测试集里都进行。
2.写文章时,可以把把单因素分析显著性的变量列出来,这个时候不急于把显著性的变量纳入nomogram,而是进行逐步筛选、最优子集、随机森林等方法进行再次筛选。
3.在校准度验证方面,可以写:HL test的结果支持了calibration plot的结果。

你可能感兴趣的:(文献阅读-nomogram文章(五))