临床决策曲线DCA如何解决预测模型的痛点

临床决策曲线可以说解决了临床预测模型到临床应用的一个痛点。以前存在这样一个现象,一个预测模型出来,如果它的区分度(AUC)不算低,但也不够高,这样的预测模型是不是能进入临床应用?答案似乎是不能,但是又拿不准,因为区分度够不够高也没有一定的标准。但是有了DCA之后,如果这个模型的净收益是高于默认策略(all 和none)的,并且在某个决策阈值下净收益足够高(代表足够的筛选效率),那么这个模型就是可以进入临床应用的。
详细来说,DCA从两方面来解决这个临床预测模型评价的痛点:

一、辅助获取决策阈值

以临床为优先的决策方式:

  1. 确定cost-benefit比值,这个比值显然是一个临床相关的参数, 以活检为例,cost是活检的副作用,benefit是活检的诊断作用,首先医生心中要确定能普遍接受的cost-benefit比值是多少,比如1:9。因为DCA曲线中,cost-benefit比值是和决策阈值一一对应的,所以当cost-benefit比值为1:9时,决策阈值为10%。
  2. 因为每个医生心中的cost-benefit比值是不一样的,应该将其向两边扩展形成一个范围,比如5%~20%,以供更多的人选择。
  3. 以上考察的是临床行为(活检)的损失和收益,接下来根据决策曲线的净收益的值来选择具体的阈值,这一步代表了对模型实施本身效率的考量,净收益越大则模型筛选效率越高,比如净收益为0.039,代表使用模型筛选100个人可以从中筛选出3.9个真正患病的人,或者用tradeoff (1/0.039)表示从25个人中筛选出1个真正患病的人。

以参数为优先的决策方式:

还是考虑以上两方面,就是将循序颠倒,先考虑DCA曲线的参数,然后考虑临床。

  1. 根据净收益确定决策阈值的范围,与默认策略(treat all 和treat none)比较,模型的净收益高于两者情况下对应的阈值范围为决策阈值的范围;
  2. 决定cost-benefit比值来确定最终的决策阈值。

二、辅助模型选择

首先还是要确定阈值的范围,然后在这个阈值范围内,选择两个模型中净收益较高的模型,代表了模型筛选的效率较高的模型。细分的话还可以分为两种情况:

算法模型之间的选择,比如随机森林算法和逻辑回归算法

这种情况是使用相同的变量,而算法不同,因未产生额外的代价,仅考虑净收益的大小即可,净收益高的模型优于净收益低的模型

增加了预测变量

这种情况使用的额外的预测变量而产生了额外的代价,所以在考虑净收益大小的同时,还要考虑两个模型净收益差是否足够大。

三、改变模型的评价标准

在实际模型的构建中,构建的是一个二分类的预测模型,发病率极低导致数据极度不平衡,进一步导致模型的整体校准度不符合要求,按照目前的标准,这样的模型是不能够进入下一步评价的, 然而,从临床决策曲线分析中我们看到一点,就是模型的应用过程中我们其实不需要模型预测的整个概率的范围,只需要其中的一部分,所以我们只需/要这一部分的校准度符合要求就可以了。

总之,临床决策曲线提供了一个临床预测模型的评价标准,会促进临床预测模型很多的进入临床应用。

你可能感兴趣的:(python)