2020-08-13 20:21:14
作者 | 蒋宝尚
编辑 | 陈彩娴
如何才能提高人工智能医疗诊断的准确率?有一个答案是:试着让人工智能像专业医师那样思考。
8月11日,来自伦敦大学学院和英国数字医疗公司Babylon Health的研究员合作开发了依靠因果关系诊断疾病的AI系统,并在《自然通讯》期刊上发表了相关论文。
在论文中,作者提到,因果AI系统打破了传统的根据症状诊断疾病的诊断方式,通过使用“反事实问题”缩小患者可能出现状况的范围。显然,因果AI系统更加接近专业医师的诊断思维。
具体而言,传统的AI系统诊断方法,包括基于贝叶斯模型和深度学习的方法,都依赖于关联推理(associative inference)。例如,如果病人因为呼吸急促而住院,基于关联推理的AI系统可能将呼吸急促和超重(being overweight)联系起来,然后再将超重和2型糖尿病联系起来,从而诊断出应使用胰岛素的治疗方式。
如果专业医师(因果推断)进行对“呼吸急促”进行诊断,那么,医生可能会专注于呼吸急促和哮喘之间的联系。
关于诊断的准确率,作者在论文中介绍到:“我们使用了1671个临床案例作为测试集,然后将反事实算法、表现为SOTA的关联推理算法、44名专业医师三者进行对比。结果为反事实算法的准确率平均为77.26%,超过SOTA算法的72.52%,医生的71.40%。”
在罕见疾病的诊断中(例如非霍奇金淋巴瘤),反事实算法表现也尤为优秀。其中罕见疾病中准确率为29.2%,极罕见疾病的准确率达到32.9%。
1
关联推理混淆因果
(Judea Pearl 点赞推荐)
在论文的模型介绍部分,作者先概述了相关性诊断(Associative diagnosis)的基本原则和假设,然后提出这种方法会因为因果混淆而导致诊断崩溃。
具体而言,作者在论文中举了两个例子:
例子1:上了年纪的烟民经常会胸痛、恶心和疲劳。如果患者去医院看病,虽然该患者属于肺气肿的高发人群,但一个好的医生会根据证据给出一个即可能又相关的诊断(如心绞痛)。因为,肺气肿不太可能引起胸痛、恶心和疲劳的症状,所以不能用用作诊断结果。
例子2:研究发现,因肺炎入院的哮喘患者对感染的治疗更积极,降低了次母群体(sub-population)死亡率。根据这些数据训练出来的诊断肺炎的相关性诊断模型,会将哮喘作为一个保护性的风险因素。这非常危险,会导致对哮喘患者推荐一种不那么激进的治疗方案。另外,在本例中,因果混杂因素是患者未观察到的护理水平。
由于类似例子1和例子2这种混淆的例子越来越多,导致越来越多的人要求将因果知识恰当地纳入健康护理中的决策支持算法。
但是,尽管大量研究都同意将因果推理置于诊断中心,但作者在论文中也提到:“据我们所知,目前,并没有采用现代因果分析技术的模型诊断的方法。”
2
反事实诊断
在论文中,作者对诊断的因果定义如下:
从鉴于患者的病史,识别最有可能引起患者症状的疾病。
也就是,根据患者提供的证据,医生试图确定哪些疾病是症状的最佳解释。而反事实推断则利用了这个定义进行检验,即如果某些前提条件不同,判断某些结果是否会发生。总体思路是:计算如果发生了一些假设性干预,如果能观察到不同结果的可能性,便推断出于事实相反。
另外,作者提出了两个反事实的诊断措施,称之为预期失效(expected disablement)和预期充分性(expectedsufficiency)。
其中,预期失效定义为:
预期充分性定义为:
其中, ε为事实证据,S+为证据确凿的事实状态,D代表疾病,S'为反事实症状证据状态。
除此之外,作者还给出了用于计算这些指标的诊断模型-孪生诊断网络。
图注:疾病和症状的三种不同的因果结构
在具体实验中,作者使用的疾病模型是贝叶斯网络(BNs),它可以模拟数百种疾病、风险因素和症状之间的关系。另外,此模型通常将疾病、症状和风险因素表示为二元节点,要么开(真)要么关(假)。
利用现有的诊断模型,作者也已经证明,与标准的关联排名(standard associative rankings)相比,通过这些反事实诊断对疾病假设进行排名可以极大地提高诊断的准确性。虽然“关联算法”的表现与普通医生不相上下,但反事实算法的准确度能排在医生梯队里的前25%。
另外,这一改进对于罕见和非常罕见的疾病尤其明显。毕竟,在这些疾病中,诊断错误通常更常见、更严重,在这些情况下,反事实算法对真实疾病的排名分别高于关联算法29.2%和32.9%。重要的是,这种改进是“免费的(for free)”,不需要对疾病模型进行任何改变。由于这种向后兼容性,作者的算法可以看作现有贝叶斯诊断算法的即时升级。
参考文献:
https://www.nature.com/articles/s41467-020-17419-7