Nat Med | AI辅助胸片诊断偏差: 加剧现有医疗偏见的风险
原创 huacishu 图灵基因 2021-12-26 08:51
收录于话题#前沿生物大数据分析
撰文:huacishu
IF=53.440
推荐度:⭐⭐⭐⭐⭐
亮点:
1、作者检查了三个大型胸部X射线数据集以及一个多源数据集的胸部X射线病理分类中的算法诊断不足;
2、作者发现,使用最先进的计算机视觉技术生成的分类器持续且选择性地使患者群体诊断不足,并且交叉的服务不足亚群体(例如,西班牙裔女性患者)的诊断不足率较高。
加拿大多伦多大学Laleh Seyyed-Kalantari 博士课题组在国际知名期刊Nat Med在线发表题为“Underdiagnosis bias of artificial intelligence algorithms applied to chest radiographs in under-served patient populations”的论文。人工智能(AI)系统在医学成像应用中越来越达到人类专家级别的性能。然而,人们越来越担心,此类人工智能系统可能反映和放大人类的偏见,并降低其在医疗服务不足人群(如女性患者、黑人患者或社会经济地位较低的患者)中的服务质量。在诊断不足的情况下,这种偏见尤其令人不安,因为AI算法会错误地将患有疾病的个体标记为健康个体,从而可能延迟获得医疗服务。本研究中作者检查了三个大型胸部X射线数据集以及一个多源数据集的胸部X射线病理分类中的算法诊断不足。作者发现,使用最先进的计算机视觉技术生成的分类器持续且选择性地使患者群体诊断不足,并且交叉的服务不足亚群体(例如,西班牙裔女性患者)的诊断不足率较高。使用医学成像进行疾病诊断的人工智能系统的部署存在着加剧现有医疗偏见的风险,并可能导致获得医疗服务的机会不平等,从而引起临床上使用这些模型存在的伦理问题。
随着人工智能(AI)算法越来越多地影响社会决策,研究人员对算法产生或扩大偏见提出了关注。在这项工作中,作者将偏差定义为针对或支持预测任务子群体的表现差异(例如,黑人与白人患者在疾病诊断方面的表现不同)。虽然人工智能算法在特定情况下可能会减少偏差,但人工智能的直接应用也被证明可以在一系列设置中系统化偏差。这种紧张关系在医疗领域尤为紧迫,人工智能系统可以改善患者健康,但也可能表现出偏见。虽然在算法偏差和健康偏差方面已经做了很多工作,但人工智能驱动的诊断不足的主题还没有被探索。至关重要的是,诊断不足被定义为错误地声称患者是健康的,在患者最需要的时候不会进行临床治疗,特别是在放射学上可能是有害的。鉴于研究中正在积极开发自动筛查工具,并已证明与专家绩效相匹配,如果将基于人工智能的诊断算法用于临床分诊,则诊断不足可能是一个关键问题。分类是重要的诊断第一步,在这一步中,被错误诊断为健康的患者在临床医生就诊时的优先级较低。因此,患者将无法及时得到急需的关注。诊断不足可能比误诊更糟糕,因为在后一种情况下,患者仍然接受临床护理,临床医生可以使用其他症状和数据来源来澄清错误。初步结果表明,AI可以减少一般的诊断不足,但这些研究并没有深入考虑现有的临床服务不足亚群。例如,与非西班牙裔白人患者相比,黑人患者在慢性阻塞性肺疾病中往往诊断不足。作者在三个大型公共放射学数据集中,即Mick-CXR(CXR)、CheXpert(CXP)和ChestX射线(美国国立卫生研究院(NIH)),对基于人工智能的胸部X射线(CXR)预测模型中的诊断不足进行了系统研究,该模型旨在从X射线图像预测诊断标签,以及一个关于共同疾病的多源数据集,将这三个数据集结合在一起。将诊断不足研究的重点放在跨越种族、社会经济地位、性别和年龄的个体和交叉亚组上。图1显示了作者的模型图示。
基于人工智能的医学图像分类器中的一个标准实践是训练模型,并报告整个人群的模型性能。为了研究受性别、年龄、种族/民族和保险类型对所接受护理质量的影响,作者报告了所有这些因素的结果。使用保险类型作为社会经济地位的不完全代表,因为,例如,医疗保险的患者通常处于低收入阶层。为了评估诊断不足患者的模型决策偏差,作者比较了总体人群中各亚群的诊断不足率。作者测量了在四个数据集设置中训练的不同胸部X射线诊断模型的诊断不足率:Mick-CXR(CXR,65079名患者的371858张图像)、CheXpert(CXP,64740名患者的223648张图像)、胸部X射线14(NIH,30805名患者的112120张图像),以及共享标签上所有图像(共有129819名患者的707626幅图像)的多源组合。CXR、CXP和NIH数据集的男性和女性患者比例相对相等,大多数患者年龄在40到80岁之间。需要注意的是,CXP和NIH数据集仅报告患者的性别和年龄,而CXR数据集还报告了大部分图像的患者种族/民族和保险类型。在CXR数据集中,作者注意到种族/民族和保险类型都是高度倾斜的。使用“性别”一词来匹配基础数据中报告的术语。性别呈现在社会偏见中扮演着重要角色,但这些数据并没有定期收集。表1列出了数据集更详细的汇总统计信息。
作者发现所有数据集的诊断不足率在所有考虑的亚群体中都不同。在图2a中,显示了CXR数据集在种族/民族、性别、年龄和保险类型方面的诊断不足。女性患者、20岁以下患者、黑人患者、西班牙裔患者和有医疗补助保险的患者的算法诊断不足率高于其他组。换句话说,这些群体被错误地标记为健康,并且没有接受临床治疗的风险更高。在整个CXR(图2a)、ALL和CXP数据集中,偏差模式是一致的,即女性和年轻患者的诊断不足率最大。然而,在NIH数据集中,男性患者和年龄>80岁的患者诊断不足率最高。NIH数据集在几个关键方面也不同于CXP和CXR数据集:它只包含正面图像,而不是正面和侧面图像;它只有7个共同的疾病标签,而不是14个,这意味着没有发现标签表示没有不同的疾病。因此,NIH数据集的样本多样性可能低于源自临床医院的CXP和CXR数据集。
作者调查交叉组,这里定义为属于两个亚群体的患者,例如黑人女性患者。与先前在人脸检测方面的工作类似,发现交叉子组(图2b)在算法诊断不足中经常存在复合偏差。例如,在CXR数据集中,西班牙裔女性患者的诊断不足率较高,也就是说,与白人女性患者相比,未发现FPR(图2b(i))。此外,年龄为0-20岁和女性、年龄为0-20岁和黑人、年龄为0-20岁和有医疗补助保险的交叉亚组患者的诊断不足率最高(图2b(ii))。图2b还显示了黑人患者与年龄、性别和保险类型的另一个亚组(图2b(iii))以及医疗补助保险患者与性别、年龄和种族/族裔的另一个亚组(图2b(iv))交叉的诊断不足率。属于两个服务不足亚组的患者有较大的诊断不足率。换句话说,并非所有女性患者的误诊率都相同(例如,西班牙裔女性患者的误诊率高于白人女性患者)(图2b(i))。表2中的女性-年龄属性下列出了女性患者中诊断不足最多的年龄组。假阴性率(FNR)(图2c)和FPR(图2a)显示了CXR数据集中不同服务不足组之间的反向关系。这种关系也存在于相交子群(图2d)。这一发现在所有数据集中都是一致的。FPR和FNR表现出相反的关系,而不是FPR和FNR的增加,这一事实表明,该算法正在将服务不足的群体错误地标记为健康,而没有相应地增加该算法错误诊断疾病的实例。这仅与选择性算法诊断不足相一致,而不是仅因较高的噪声率而产生的简单、无方向的错误。作者比较了不健康人群和未确诊人群的疾病流行率,以了解种族/民族和性别的交叉点。例如,诊断不足的人群在比例上更有可能对肺部病变有阳性标记,而对胸腔积液有阳性标记的可能性较小。这表明某些疾病的疾病检测任务比其他疾病更困难。研究认为诊断不足是主要的公平性问题,因为它对患者有潜在的有害影响,例如导致接受治疗的延迟。与FPR和FNR类似,许多受保护的属性之间存在重大差距。特别是,这些差异倾向于遵循FPR的不同模式,例如,女性优先于男性,年轻人优先于老年人。根本原因是不同人群之间患病率的差异,也就是说,考虑到0-20岁年龄组的患病人数要少得多,将有相对较少的假阳性和真阴性,这将导致FDR的下降。
研究已经在胸部X射线领域的三个大型公共数据集中显示了一致的诊断不足。在所有环境下训练的算法在服务不足的亚群中表现出系统性的诊断不足偏差,如女性患者、黑人患者、西班牙裔患者、年轻患者和社会经济地位较低的患者。这些影响在交叉亚组(例如,黑人女性患者)中持续存在,但在最小的交叉组中并不持续恶化。NIH数据集中受影响最严重的特定亚群各不相同,特别是男性患者和年龄>80岁的患者,应进一步研究。除了这些,还有几个话题需要进一步讨论和调查。首先,作者强调注释中的自动标记应该仔细审核。在胸部X射线数据集中,机器学习已经从手动图像标记转向自动标记,使用基于自然语言处理(NLP)的方法生成放射学报告中的标签。这就产生了大量带注释的胸部X射线数据集,广泛用于培训深度学习模型和提供人工智能解决方案。鉴于基于NLP的技术在医学和非医学领域都显示出对代表性不足的亚群的偏见,自动标签机可能是一个很大的偏见来源。第二,偏见放大很可能是普遍的。目前的结果应该在临床护理本身存在已知偏差的情况下加以考虑,在这种情况下,服务不足的亚群往往被医生低估,而特权群体过度诊断率却没有同时增加。这对于医疗领域的机器学习模型来说是一个特别危险的结果,因为基于大型(707626张图像)多源数据集的算法决策有可能放大而非改善医疗实践中的现有偏见。第三,尽管有可能通过事后技术解决方案来实现公平,但它也存在着缺陷。实现组间FNR和FPR相等的一种简单后处理方法是为不同组选择不同阈值,对应于其接收器工作特性(ROC)曲线的交点。然而,在为每个组使用不同的阈值时存在许多缺陷。例如,对于人口较少的交叉子群,由于不确定性较大,可能难以获得阈值的精确近似值。需要计算的阈值数量也随着受保护属性的数量呈指数增长,这使得在三个或更多受保护属性的交叉点上基本不可行。最后,该解决方案仅适用于每组ROC曲线具有交点的情况。在ROC曲线不相交的情况下,实现相等的FNR和FPR将需要随机化,也就是说,特定组中模型性能的系统性恶化。如果诊断不足是主要的公平性问题,那么通过阈值调整就很容易实现平等的FPR。然而,这种解决方案除了需要了解患者的群体成员之外,还可能导致严重的过度诊断(FNR)差异。第四,尽管基于真实数据,在亚组之间没有相同的疾病患病率,并且对公平性指标的选择并不直接涉及亚组之间的患病率,但年龄、性别和种族/种族亚组之间的同等诊断不足率仍然是需要的。如果临床中部署的分类器由于疾病流行率较低而错误地低估了某个亚组(例如黑人患者),这仍然会对该组成员造成不利影响,并可能导致严重的道德问题。第五,公平性定义必须在医疗环境中谨慎选择。例如,假设两组的基本速率不同,则它们不可能具有相等的FNR、FPR和FDR,除非分类器完美地预测所有样本。最后,监管和政策决策者必须考虑诊断不足。鉴于医疗算法越来越广泛,从业者应在模型开发过程中和部署后评估关键指标,如诊断不足率差异和其他健康差异。总之,针对在胸部X射线上训练的诊断算法中服务不足的亚群,作者证明了基于人工智能的诊断不足的证据。临床上,诊断不足非常重要,因为未诊断的患者没有得到正确的治疗。在三个大规模数据集和一个组合的多源数据集中,服务不足的亚群始终存在算法诊断不足的重大风险。此外,交叉亚组中的患者(例如,黑人女性患者)特别容易受到算法诊断不足的影响。当算法从实验室转移到现实世界时,必须考虑对服务不足的亚群的医疗关注。
教授介绍
Laleh Seyyed-Kalantari 博士就职于加拿大多伦多大学,是多伦多大学计算机系和向量研究所的机器学习小组的博士后研究员。她的研究重点是开发基于人工智能(AI)的医学图像诊断方法。她的研究兴趣是医疗保健中的机器学习、医疗成像中的人工智能、计算机视觉和优化。同时获得了多项极具竞争力的国家级奖项,如NSERC博士后奖学金等。目前专注于深度学习和医学成像方面的研究项目。精通优化、计算机视觉、机器学习、人工智能、数学、电磁学、数值建模和电气工程等多个方向。在国际权威杂志上发表多篇研究论文。
参考文献
Seyyed-Kalantari L, Zhang H, McDermott MBA, Chen IY, Ghassemi M.Underdiagnosis bias of artificial intelligence algorithms applied to chestradiographs in under-served patient populations. Nat Med.2021;10.1038/s41591-021-01595-0. doi:10.1038/s41591-021-01595-0