共话 AI for Science | 解放军总医院医学创新研究部刘晓莉:基于数据和知识驱动的临床预测模型的构建

2023 和鲸社区年度科研闭门会以“对话 AI for Science 先行者,如何抓住科研范式新机遇”为主题,邀请了多个领域的专家学者共同探讨人工智能在各自领域的发展现状与未来趋势。

在医学领域,临床预测是一种经济有效的健康策略,可以提早地识别与治疗、预防与控制,在不同疾病等级都发挥着重要作用。

以《基于数据和知识驱动的临床预测模型的构建》为题,来自解放军总医院医学创新研究部的工程师刘晓莉博士,从临床预测模型的简介和意义、研究和应用现状,到一个关于老年重症患者的不良结局预后早期预测的实际研究案例,进行了分享。


分享嘉宾|刘晓莉  解放军总医院医学创新研究部工程师

北京航空航天大学生物与医学工程学院生物医学工程专业博士。研究方向为围绕急危重症救治场景开展健康状态的评估、动态监测和不良事件的早期预警、便捷化辅助决策支持工具研发等。发表学术论文 25 篇,第一作者和共同一作 7 篇,SCI Q1 区文章 10 篇。申请发明专利 9 项,授权 4 项。协助举办“解放军总医院-麻省理工学院医疗大数据研讨会” 4 次。

本文内容已做精简,如需获取专家完整版视频实录及课件,请点此链接联系工作人员领取。

01 临床预测模型的简介和意义

共话 AI for Science | 解放军总医院医学创新研究部刘晓莉:基于数据和知识驱动的临床预测模型的构建_第1张图片

这幅图展示了一些临床预测常见的应用领域,比如在 Covid 期间机械通气患者的插拔管、 ICU 的转入、房颤筛查检测,以及急性肾损伤和脓毒症的早期预测与实施预警。

预测模型是什么呢?Clinical Prediction Model,从医学的角度来说,是指患者或医生,根据特定的疾病、症状或未来发生的特定事件,来评估风险或概率而做出的决策;从工程的角度来说,是指使用预测变量分析具有特定预测特征的个体在特定时间段内出现特定结果或未来发生的绝对概率或风险。临床预测模型的实际意义,就是能够提早地去识别与治疗、提早地预防与控制,是一种最为经济有效的健康策略,它可以在不同的疾病等级都发挥着重要作用。

共话 AI for Science | 解放军总医院医学创新研究部刘晓莉:基于数据和知识驱动的临床预测模型的构建_第2张图片

Nature Medicine 最近的一个报道分析了 2024 年有望重塑医学的 11 项临床试验,其中之一是机器学习模型用于急诊的层次分诊。它讲了马斯特里赫特大学医学中心正在开展一项前瞻性多中心试点临床试验,他们基于 AI 模型研发出的一个急诊分诊模型可以识别急诊患者 31 天内的死亡率,虽然模型的表现优于内科专家,但尚不清楚它在实际的临床实践中实施时有益价值有多大,所以他们希望能通过这项前瞻性验证评估这个模型的实际效果,比如预测的准确性,以及对临床医生的影响,希望能获得一个性能良好的、可以辅助临床决策的模型。

02 临床预测模型的研究和应用现状

共话 AI for Science | 解放军总医院医学创新研究部刘晓莉:基于数据和知识驱动的临床预测模型的构建_第3张图片

临床预测模型正在蓬勃发展,但在实际场景下落地的却比较少,其实是存在着一些挑战和待解决的难题的。这里有一些比较好的综述或相关报道分析了其中存在的问题,我以两篇文章为例加以说明。

共话 AI for Science | 解放军总医院医学创新研究部刘晓莉:基于数据和知识驱动的临床预测模型的构建_第4张图片

比如这篇是发表在 BMJ 上的文章,它回顾了 152 篇文章后发现大多数机器学习预测模型的研究显示方法质量很差,而且存在很高的偏倚风险——偏倚风险主要包括了研究的样本量小、对数据的处理不充分,以及模型存在过拟合问题。然后他们提议说,如果要促进 AI 预测模型在临床实践中的应用,应该要努力去改善这些模型在研究、设计、实施、报告以及验证整个流程中的规范化。

共话 AI for Science | 解放军总医院医学创新研究部刘晓莉:基于数据和知识驱动的临床预测模型的构建_第5张图片

共话 AI for Science | 解放军总医院医学创新研究部刘晓莉:基于数据和知识驱动的临床预测模型的构建_第6张图片

另外这篇文章针对于机器学习模型在实际应用中面临的一些挑战,比如透明性、可重复性、伦理和有效性,提出了应当被重视的 20 个关键问题。这里分别列举了几个阶段,比如起始阶段首先要问,有什么证据可以表明算法的开发是由临床研究和流行病学研究设计的最佳(实践)指导出来的?或者在研究阶段很关注的是,数据是否适合回答临床问题?因为临床的异质性在真实场景下差别是很大的,不考虑这些问题会对模型的开发性能存在很大影响。还有比如说在可重复性、影响评估以及实施环节,都有关键的问题需要注意。

03 老年重症患者不良结局早期预测

下面分享一下我们是怎么基于数据和临床知识驱动的方式去开发模型的。

对于老年患者来说,合并症、虚弱以及认知功能的障碍会导致老年患者在急性医疗事件中风险相比于成年患者更高,提早或准确的疾病风险评估,可以为临床医生护理这些高风险患者提供帮助。所以我们这项研究的目的是开发一个 ELDER-ICU 的老年模型,它是一种机器学习模型,能够评估入住 ICU 中的老年患者的疾病严重程度,并会着重对这个模型进行校准和对潜在风险进行评估,希望这个模型具备可解释性、普适性和易用性,并能让它的潜在偏倚降到最低。

共话 AI for Science | 解放军总医院医学创新研究部刘晓莉:基于数据和知识驱动的临床预测模型的构建_第7张图片

我们这项研究用到了四个开源的数据集,包括 MIMIC-Ⅲ & Ⅳ、eICU-CRD、AmsterdamUMC db,这些数据集已经部署在了和鲸的平台上(获得官方使用证书后可申请使用)。我们把数据集中的 14 个医院用于模型开发, 169 家医院用于模型来自于美国的外部验证,还有一家医院用作来自欧洲的外部验证,一家用于时序的验证。

共话 AI for Science | 解放军总医院医学创新研究部刘晓莉:基于数据和知识驱动的临床预测模型的构建_第8张图片

首先,在开发模型时,我们要充分地跟医生沟通,了解他的实际需求。由于临床医生不可能实时评估,现有的场景就是用疾病严重程度评分,比如器官功能衰竭评分,一天评一次。为了比这个评分的性能更好,我们考虑到了老年患者的特性,加入了一些他们独有的特征,比如慢性疾病严重程度评分 CCI (Charlson Comorbidity Index),以及老年人本身的虚弱和营养。同时,老年患者相比于成年人,有可能放弃有创性的激进性治疗,所以治疗的干预措施也考虑了进去。

在开发模型时,考虑到模型部署和模型使用的便捷性,我们选用了现在常用的 XGBoost (eXtreme Gradient Boosting) 模型。

对于模型性能的评估,我们会对比常用的机器学习模型,以及临床现在认可的、或最新发表的评分。评估指标就是常规关注的 AUC、特异性、敏感性等。验证方式如前所述,包括内部验证和不同方式的外部验证,以及模型随时间变化的时序验证。这里着重强调模型的偏倚,临床通常会有额外关心/潜在忽视的一些子群体,比如更高龄的老年患者、女性、以及西方国家的黑人群体。模型的鲁棒性我们设想的是,当实际场景没有那么多变量可以收集时,这个模型发挥作用的性能会怎么样。

模型的可解释性选用了现在常用的 SHapley 的方式。

共话 AI for Science | 解放军总医院医学创新研究部刘晓莉:基于数据和知识驱动的临床预测模型的构建_第9张图片

这张图展示了模型整个开发的过程。

首先我们准备了一个多中心的数据集,在开发模型前要经过很详细的数据预处理、插值以及特征构建——这是面向于比如一些比较简单的机器学习模型开发,深度学习可能就会省去一些特征构建的环节。然后是准备模型的开发集和验证集,由于我们这项研究的群体正负样本存在失衡,所以我们对数据集也进行了处理,再放到模型中去。

下面是模型的校准和优化,在一些核心的步骤之后,我们会考虑模型在不同的数据集或不同的时间场景下的性能。需要强调的是,我们不光要对比机器学习模型,也要对比临床现在认可的、他们正在使用的模型/评分的性能。另外,偏倚评估也是这项工作重点考虑的。最后是模型输出结果的解释。

共话 AI for Science | 解放军总医院医学创新研究部刘晓莉:基于数据和知识驱动的临床预测模型的构建_第10张图片

左侧的 ABCD 是四种方式的验证效果。以 B 图为例,最左边的是我们的模型,右边是用于对比的机器学习模型和临床评分,纵轴是 AUC ,可以看到我们的模型是一致优于其他的模型和评分的。

右侧评价的是模型的偏倚程度。A 图可以看到,面向不同的子群体,模型效果也存在差别,但整体的评估效果 AUC 都高于 0.81 。B 图着重强调一下,我们虽然可以比较准确地评估出患者是不是有死亡风险,但评估的概率可能是不对的,也就说有可能会过度地高估死亡风险,也可能会过度地低估,只有当模型 SMR(95%CI) 处于中间那条等于 1 的线,才能证明模型的效果是潜在无偏的。从图上可以看到我们的模型确实是既不会过度高估,也不会过度低估。

共话 AI for Science | 解放军总医院医学创新研究部刘晓莉:基于数据和知识驱动的临床预测模型的构建_第11张图片

这张图是对模型的可解释性的呈现。以 B 图为例,展示了模型重要的 20 个特征,前 10 个特征分别包括了对患者神经系统严重程度的评分——格拉斯哥评分、第一天的总尿量、呼吸频率,机械通气、患者的活动状态、查尔森合并症指数、营养风险指数、代码状态——就是是否会选择激进性的治疗,接着才是患者的年龄,还有常规的尿素氮。

共话 AI for Science | 解放军总医院医学创新研究部刘晓莉:基于数据和知识驱动的临床预测模型的构建_第12张图片

这张图展示了我们的模型纳入部分特征的性能变化。我们测试了从 5 个特征到最终纳入全部 60 个特征,依旧以 B 图为例,可以看到当特征到 20 的时候性能就很稳定了,再多纳入特征其实对性能的提升贡献并不大。

由此,这项工作可以获得的结论是:

我们利用 XGBoost 模型开发了一个 ELDER-ICU 模型,这个模型是一个经过良好校准,且具备可解释性的预测模型,它可以评估 ICU 中高风险的老年患者群体,让临床医生提早识别和注意到。

同时,实验验证了这个模型是优于现在常规的临床评分系统和机器学习模型的,当我们选择了 20 个重要变量形成一个简易模型时,它依旧可以达到临床可以认可的预测性能。

我们也发现了对于老年重症患者来说比较重要的一些特征,包括他的活动状态、合并症、营养风险指数、代码状态等等,是早期评估疾病严重程度的重要风险因素。

这个模型现在正在真实世界的多家医院中评价实际效果,在持续地监测它是否可以对重症的 ICU 医生产生切实帮助。

共话 AI for Science | 解放军总医院医学创新研究部刘晓莉:基于数据和知识驱动的临床预测模型的构建_第13张图片

共话 AI for Science | 解放军总医院医学创新研究部刘晓莉:基于数据和知识驱动的临床预测模型的构建_第14张图片

最后,我想以两张图展示我们的想法。

在真实场景下,医护人员不仅要救治患者,还需要记录/记住很多繁杂的数据,也会面临各种误报警的信息干扰;同时,患者也要面对各种医疗设备和繁琐的流程。不管是医生还是患者,实际体验都不算很好。

所以我们希望能够通过 AI 的方式,在未来可以建成这样的场景,它是一个充满智慧化、智能化、物联和人文关怀的医疗普通病房或 ICU 。


以上为刘晓莉博士的分享内容,如需获取专家完整版视频实录及课件, 请点此链接联系工作人员领取。

您也可以点击此处免费体验了解与多个临床研究中心合作的数据科学协同平台 ModelWhale 。

你可能感兴趣的:(人工智能)