新冠建模预测java_一篇新冠预测模型文章的深度解析|推荐

大家好,最近几年预测模型的文章非常火,很多人也想试试,但是又不知道该如何下手?今天我们就通过对一篇新冠患者预测模型的全身扫描,让大家了解预测模型的套路,相信结束之后,你也可以模仿套路写一篇。

这篇文章是钟南山团队2020年5月发表在JAMA子刊的一篇文章IF=18分。原文已经放在文章最后,大家可以下载阅读。

在开始阅读文章前,大家先梳理一下预测模型的应用场景:临床中发现一个问题,比如有些患者进展比较重,有些则比较轻,然后通过收集临床数据,进行数据挖掘,寻找导致进展的危险因素,比如肝肾功能不好会导致病情恶化。这些因素都找到之后,就可以把这些因素联合起来,通过打分、评估等方式来预测患者的结局。对于预期比较差的患者,进行提前干预。这段话就是预测模型的本质,建议大家反复阅读几遍。

有了上面的场景,大家再进行预测模型的解读会更加清晰。下面我们来具体分析这篇文章。

表一/二:研究人群描述

文章摘要告诉我们,文章分别使用了575家医院的数据作为Development Cohort,相当于建模数据,另外4家医院作为建模数据。这是预测模型的惯用套路,通过外部数据来验证模型的准确性。因为相关变量非常多,人群描述一共分了2张表,一个是症状等资料,另一个是实验室检查。

表三:大海捞针,建立模型

有了表一表二的相关数据,下面要做的就是如何“海里捞针”,从上面众多指标中找到最终的预测指标。这一步是预测模型的核心,是最具“玄学”的部分。每个人都有自己的筛选办法,没有统一的公式,也最考验数据分析师的经验和水平。我们看这篇文章是如何操作的:

第一步是使用LASSO回归,纳入72个自变量,然后通过LASSO筛选出了19个变量。

LASSO回归的本质是在回归方程中引入惩罚因子,可以在筛选变量的时候去掉共线性的影响,找到对结局影响最大的因素。我知道大家对这个比较陌生,感觉高深莫测,但其实在R中只要用一个函数就可以搞定。本质上还是属于方法学的东西,之后我们会专门讲解LASSO回归的应用。我们还是回到文章的主线。

通过LASSO筛选之后,找到了19个变量,但是这些变量还是太多了怎么办?我们看文章是怎么处理的:

文章描述到:我们将这19个变量纳入logistic回归模型,结果发现有10个变量是独立的、有统计学意义的危重病预测因子,因此被纳入风险评分。到这里就结束了,表3直接给出了这10个指标的多因素分析。

很多小伙伴估计心中会有一个想法:就这?这也没说明白具体是咋筛选的呀:是后退法逐步回归做的吗,还是结合临床筛选的?

其实大家大可不必惊讶,因为临床数据之间的关系非常复杂,没有办法用一个通用的公式选出最佳答案。就算用的是逐步回归,最后的结果也未必符合临床。那么这个时候,就只能通过数据分析师的反复尝试、筛选,再和临床医生的沟通,最后确认纳入方程的最优组合。

图1:展示预测方式

有了这10个变量,下一步的预测模型就更简单了,直接把回归方程的系数带到公式里面,用一个网页或者打分卡的方式呈现出来就可以了,一般文章用的比较多的是列线图:nomogram。其实呈现形式关系不大,重要的是前面的预测方程。这个文章是用网页的方式,做了一个评分小工具,大家只要按根据10个指标作出判断,就可以算出患者的危重概率。

表四:外部验证

到这里建模的过程就基本完成了,最后是通过外部数据的验证。在其他四家医院最后验证的效果也比较接近,都在0.88以上,说明模型的稳定性比较好。

总结

至此文章的结果就全部结束了。大家可以看到,其实预测模型的思路就是寻找危险因素,建立最佳模型的过程。所谓的预测模型,其实本质上还是回归方程,只不过结果的呈现模式比较符合临床应用。

以上大家不难看出,预测模型其实也没有我们想象中那么高不可攀,甚至从套路上来说,预测模型是最容易模仿的。不过清晰并不代表简单,预测模型的功夫都在文章之外。

一个新问题的出现,往往需要从危险因素开始,一步一步的探寻,最后一步才是预测模型。在前期不清楚的时候贸然写预测模型,相当于提前给这个问题盖棺定论,后期错误的概率非常大,所以大家也要慎重。面对新问题的时候,建议大家还是从危险因素的文章写起,一步一步深究,即可以多写一些文章,又能把这个话题研究透彻,这才是临床研究的精髓。

更多的文献解读,大家可以查看下面这些卡片,同时我们也在做科室数据库的搭建,欢迎大家联系我们。如果觉得这篇文章还不错,还请大家点个在看,或者分享给朋友哦。

往期推荐

你可能感兴趣的:(新冠建模预测java)