2022-09-30

Nat Cancer | 组织病理学中的人工智能:加强癌症研究和临床肿瘤学

原创 huacishu 图灵基因 2022-09-29 18:16 发表于江苏

收录于合集#前沿生物大数据分析

撰文:huacishu

IF=23.177

推荐度:⭐⭐⭐⭐⭐

亮点:

1、作者描述了人工智能如何用于预测癌症结果、治疗反应、基因改变和数字化组织病理切片中的基因表达;

2、作者总结了基础技术和新兴方法,指出了其局限性,包括数据共享和标准的需要;

3、最后,作者讨论了AI在癌症研究和肿瘤学中的更广泛意义。


德国海德堡大学医院Jakob Nikolas Kather教授课题组在国际知名期刊Nat Cancer在线发表题为“Artificial intelligence in histopathology: enhancing cancer research and clinical oncology”的论文。人工智能(AI)方法增加了我们从数字组织病理学图像中提取定量信息的能力。人工智能有望减少人类专家的工作量,提高病理报告的客观性和一致性,并通过从常规可用数据中提取隐藏信息产生临床影响。


在这里,作者描述了人工智能如何用于预测癌症结果、治疗反应、基因改变和数字化组织病理切片中的基因表达。作者总结了基础技术和新兴方法,指出了其局限性,包括数据共享和标准的需要。最后,讨论AI在癌症研究和肿瘤学中的更广泛意义。

恶性肿瘤是复杂的、异质的、多细胞的生态系统。了解不同细胞类型与肿瘤进化和生态学之间的相互作用是有效治疗癌症的关键。在过去几十年中,基因组、转录组和蛋白质组分析已成为癌症研究的重点,并随后开始进入临床常规(图1a)。肿瘤的组织学表型是补充基因组、转录组和蛋白质组的额外关键数据,这些数据结合起来对癌症诊断至关重要。

计算病理学是指人工智能在病理组织学中基于计算机的图像分析中的应用,近年来得到了发展和广泛应用。计算病理学方法可以从组织学表型中提取信息,从而实现广泛的研究和诊断应用(图1b)。这种能力是组织病理学和分子诊断领域技术进步的结果,结合了过去几十年计算机视觉和生物信息学的方法创新(图1c)。

通过新的高通量技术,可以对肿瘤及其微环境进行更精确、更丰富的表征,从而在综合分子水平上研究各种肿瘤特性。利用生物信息学和数据科学的工具,可以从产生的大量数据中提取生物学和临床相关信息。因此,除了通过自动化辅助常规诊断工作外,计算机辅助量化此类样本将产生大量科学和医学上有价值的信息。然而,直到最近,使用基于计算机的图像分析方法评估常规病理切片,大多停留在研究层面,而不是临床常规应用。


现代卷积神经网络(CNN)是一种特殊类型的神经网络,是特别适合计算机视觉和图像分类的机器学习算法。CNN设计为使用多级图像结构,其中基本图像特征(如轮廓)由相邻像素强度的变化定义(图2a),较大的图案实际上是较小图案的连续组合。可以使用称为卷积(图2b)的数学运算在每个尺度上识别这些模式,从而生成一组表示图像内容的越来越抽象的特征图(图2c)。CNN可以直接从图像进行预测,而无需依赖人工设计的中间步骤(图2d)。


AI可以直接从苏木精和伊红染色样本的常规组织病理学图像预测抽象类别。特别是,即使训练数据集只有单个幻灯片的标签(图3a),也可以获得空间分辨率的预测(图3b)。得分高的图像块可以可视化,允许人类专家检查人工智能系统的合理性,并在人工智能的帮助下发现新功能(图3c)。总之,这些方法可以在研究中实现各种应用(图3d),包括通过改进研究队列中组织的分子特征。

在临床诊断中,AI方法可以预测结果和治疗反应,并直接从H&E染色组织病理切片推断出一些遗传改变(图3e)。人工智能的能力并不局限于图像分类,在图像分类中,任务是预测与图像相关的某种状态。生成型模型可以复制图像本身,并提供新的机会,包括对模型进行高效和安全的培训。下面作者将概述人工智能在数字病理学中的关键概念和示例,重点介绍其对研究和临床肿瘤学的影响。

癌症研究和诊断中的应用

作者描述了现有计算方法的适应性如何帮助解决常规可用肿瘤组织切片中的复杂和临床相关问题。

自动化常规组织病理学工作流程

肿瘤样本的组织病理学评估包括福尔马林固定、切割、石蜡包埋、H&E染色,然后由训练有素的病理学家使用显微镜进行视觉表征。病理学家根据标准调查肿瘤组织的存在、亚型和其他组织学特征。

CNN扩展了基于计算机的图像分析功能,用于许多常规组织病理学任务。这些包括乳腺癌、前列腺癌或食管癌的肿瘤检测,通常在活检标本或手术切除中进行。CNN还可以对肺癌和肾癌进行分型。此外,数字病理学能够对原发性未知的癌症进行分类,这些癌症可能难以诊断和治疗。最后,基于CNN的方法可用于劳动密集型任务,如有丝分裂细胞计数。

通过深度学习扩展传统能力

在许多基本的图像分类问题中,无论是普通人还是专家,都可以从图像数据本身得出基本的真相,算法最终再现人类的决策。然而,正如在肿瘤学研究和临床应用中通常做的那样,也可以使用其他方式记录的培训标签,增加了提高人类技能的潜力。

例如,人工智能系统已被用于直接从组织切片预测患者的存活率。在这种情况下,基本事实并不是由病理学专家从成像数据本身得出的,而是由临床随访确定的。同样,人工智能也被用于直接从病理切片预测肿瘤的遗传特性。在后一种情况下,监督预测任务的标签由下一代测序或类似的分子生物学方法定义。最后,AI方法通过直接从常规病理切片预测特定药物的治疗反应,可能具有较高的临床影响。

预后预测和治疗反应

预测性生物标记物可以预测特定癌症的自然进程。组织病理学图像数据包含重要的预测信息,如淋巴细胞计数、染色质模式或组织类型比例,每种都可以通过特定的数字病理学方法进行量化。端到端人工智能方法不受任何预定义模式的限制,但可以将许多事先已知的视觉线索拼凑在一起。这些方法可以在肝细胞癌、结直肠癌和脑肿瘤等其他肿瘤类型中产生准确的风险评分。

与预后相比,更具临床相关性的是预测特定治疗反应的能力,从而帮助肿瘤学家提出更好的治疗建议。此类模型需要严格的、理想的前瞻性临床验证,而组织病理学中基于AI的预测性生物标记物尚需实现这一点。然而,许多概念验证研究已经证明人工智能能够直接从病理切片预测免疫治疗或靶向治疗的反应。目前,包括组织病理学、放射学和基因组学在内的多种来源的数据集成被广泛认为是使用人工智能改善精确肿瘤学患者预后的先决条件。

遗传改变和基因表达预测

癌症中的许多基因改变与特定的组织病理学表型有关。然而,在大多数肿瘤类型中,这种遗传-形态学关联并没有被系统地使用。这可能部分是因为病理学家需要定期对已知突变状态的样本进行培训,以实现对此类突变的稳健检测。重要的是,已知组织病理学癌症亚型之间的差异显示出相似的分子变化趋势,但通常发现关联程度较弱,因此表明AI学习的组织病理学模式不是传统分类的一部分。

方法创新

新技术的发展有助于不断完善数字病理学方法,使从常规可获得的组织切片中提取大量隐藏信息成为可能。

减少对标记培训数据的需要

医学图像分析中的人工智能可以大致分为有监督的(图4a)和无监督的(见图4b)。在监督方法中,目标是预测给定输入的已知标签,并评估模型的性能。组织病理学图像分析中的一个常见分类问题是从图像数据预测肿瘤组织的临床特性,例如,良好或较差的预后表型、肿瘤分级或相关基因的突变状态。数字病理学中任何监督学习问题的关键缺点是生成标记通常很费力或昂贵。

无监督方法不需要标签,但可以通过调查培训数据中的模式来提取与任务相关的知识,例如聚类、异常检测和维度缩减(图4b)。由于无监督方法可以应用于无基础真值标签的原始数据,因此无监督方法通常对于构建超大数据集很有用。第三种方法,自我监督学习(SSL),与无监督学习有关(图4c)。通过SSL,模型可以使用未标记的数据学习图像的形态等。

生成模型和合成数据

生成性对抗网络(GAN)根据真实图像集合进行训练,然后合成与任何特定输入图像相似但不相同的新图像(图4d)。作者预计,在未来十年,现代生成模型将越来越多地用于计算病理学。它们还可以改善组织病理学中AI方法的可解释性。

学习空间异构模式

大多数人工智能方法最初是为非医学应用而开发的,但由于组织病理学整张幻灯片图像太大,无法由CNN直接处理,因此这一过程通常并不简单,因此在经过一些延迟后被转移到组织病理学图像分析。实际上,所有的计算病理学研究都是通过从整个幻灯片图像中提取小模块或分片来解决这个问题的(图5a)。

然而,这导致了一个问题:对于一个有监督的预测任务,其中给定基因的突变状态是预测目标,标签只为整个幻灯片图像定义,而不是为每一个分片定义,这使得有监督的任务成为一个弱监督的任务。通常,载玻片上都有肿瘤和非肿瘤组织(图5b),只有肿瘤组织与分子改变有关。

从肿瘤组织生成的所有单个图像块都会继承患者的基本真相标签(图5c),随后训练CNN预测每个图像块的突变状态,然后在幻灯片上聚合图像块级别预测(图5d)。一般来说,只有肿瘤组织才应该包含有关分子改变的信息。然而,在幻灯片中,肿瘤含量(即信噪比)足够高,因此无需预先选择图像块就可以从图像块进行突变预测(图5d)。

隐私保护:无数据交换的人工智能模型联合培训

训练改进的人工智能算法的一个基本要求是提供高质量的训练数据。训练数据的大小和种类是在组织病理学中训练无偏见和高性能AI模型的关键。在某些情况下,实际和法律问题阻碍了机构大规模共享数据。这些情况下,在不共享任何数据的情况下共同训练AI模型可能是一种解决方案,既可以保护隐私,也可以结合不同机构的计算能力。

组织病理学中的分布式学习有两种主要方法。在联合学习中,几个模型是独立训练的,每个模型都在一个单独的数据集上(图6b)。在培训过程中,参与者使用集中式服务器交换模型更新,而不会泄露数据本身。同样,在群体学习中,多方共同训练一个模型,这种方法消除了对中央服务器的需要,允许直接使用对等网络(图6b)交换模型更新。与分布式系统相比,生成性人工智能是组织病理学数据共享问题的一种可能解决方案(图6c)。

走向临床实施

人工智能目前广泛用于癌症研究,并扩大了我们对肿瘤表型的定量理解。除了这些研究应用之外,人工智能算法正在走向临床应用。然而,研究生物标记物的临床应用并非微不足道,需要额外的预防措施,下面将详细介绍。

质量控制和稳健性

要使算法在临床上适用,它必须在不同临床环境中预期的一系列数据集上准确执行并保持一致。不幸的是,当将组织病理学AI解决方案部署到不同的数据集时,经常会观察到所谓的“领域转移”,这意味着组织学图像的属性或预测分数的分布是不同的。如果不采取缓解措施,这可能会对人工智能系统的性能产生不利影响,并导致错误的预测。

缓解这一问题的一种方法是确保有一个稳健的质量控制程序,使算法能够检测到异常的输入数据。另一种方法是使用“领域适应”方法,允许以无监督的方式将人工智能模型扩展到新数据集,而无需从头开始重新培训模型或收集新的标记数据。此外,人工智能系统应在日常使用前接受培训或至少在目标人群中进行验证。

人工智能系统中的偏差

此外,人工智能系统可以重现其所接受培训和分析的数据集中固有的偏差。这是一个问题,因为它可以传播性别歧视、种族主义和许多医学数据集中固有的其他类型的歧视。其中一些问题可以通过改进质量控制来解决,确保只有高质量和适当的数据才能用作人工智能模型的输入。

人工智能系统的可解释性和合理性

人工智能系统通常被称为“黑箱”,因为它们的决策过程往往不透明。普遍的共识是,缺乏固有的解释性是有问题的,因为这会产生偏见,给检测假阳性和假阴性带来困难,也隐藏了可能来自人工智能的潜在见解。然而,一个表现良好的模型并不一定要能够解释才能有用。与算法决策相关的原型图像的可视化可以是一种有用的方法。

然而,可视化并不等同于解释,这些方法还远远不能真正解释人工智能模型的内部机制。这可能会随着可解释人工智能(XAI)算法的发展而改变,该算法还可以学习明确的抽象、规则,甚至是决策的自然语言描述。人工智能在连接图像和文本方面取得的飞跃与组织病理学特别相关,在组织病理学中,算法不仅可以学习,还可以学习生成基本的组织病理学报告。

临床人工智能工作流

随着计算病理学领域的成熟,越来越多的高级编程包可用于学术用途。对于没有编程技能的终端用户来说,开源软件QuPath仍然是分析图像的强大方法。对于基本精通编程语言Python的研究人员来说,多个软件包允许轻松应用端到端工作流,例如CLAM、DeepMed、TIAToolbox、PathML和slideflow。

尽管如此,目前的诊断常规仍然包括病理学家对最简单量化任务的目视评估。病理人工智能系统滞后的主要原因之一是,病理常规工作流程很少是完全数字化的。然而,数字病理应用的好处预计将导致未来十年许多病理科组织病理学工作流程的数字化。

结论

人工智能算法提供了从大量分子和组织病理学数据中提取生物学和临床相关信息的框架。除了诊断和预后任务外,人工智能算法揭示了不同的组织学模式,表明存在广泛的分子和基因组改变。在某些情况下,当有足够的训练数据可用时,甚至可以从标准组织病理切片中预测潜在的遗传改变,其准确性可与MSI的分子检测相媲美。

虽然基于人工智能的预测因子不太可能完全取代基因组分析,但它们可以作为一种现成的第一诊断工具,提供评估未知重要性的基因组改变是否产生预期表型的能力,并提供空间背景。后者尤其重要,因为肿瘤不是同质的,而是由遗传多样的癌细胞组成的生态系统,它们与广泛的正常细胞类型相互作用。通过人工智能了解细胞表型和相互作用的这种模式将为癌症生物学提供新的见解,并为识别新的临床生物标记物奠定基础。

国际数据共享将有助于为临床实践培训更健壮、更准确的算法。这需要更具弹性的人工智能算法和创新的分布式学习方法来支持,这将有助于克服数据保护产生的障碍,并使各方能够从共享数据存储中受益。与基因组医学的新兴领域类似,基因组医学是由负担得起的测序技术和可靠的算法驱动的,为肿瘤治疗提供信息,人工智能支持的计算病理学可能会改变未来癌症的诊断、研究和治疗方式。

教授介绍


Jakob Nikolas Kather就职于德国海德堡大学医院,在基于计算机的临床成像方法领域进行研究。他的工作成果有助于进一步发展复杂图像数据的评估和解释,有助于肿瘤的诊断和治疗,尤其是在结肠癌的预防方面。这使得Kather成为少数能够开发IT解决方案的科学家和医生之一,这些解决方案在医学领域得到高度认可。

他的研究重点是人工智能在癌症临床实践中的应用。通过他的计算肿瘤学研究小组,整合了不同专业之间的差距。医生学习编程,而具有信息学或工程背景的研究人员学习识别和解决相关临床问题。其目的是进一步发展复杂图像数据的评估和解释,从而改进诊断和治疗方法,例如在结直肠癌或胃癌等肿瘤疾病中,也在炎症疾病或移植医学中。


参考文献

Shmatko A, Ghaffari Laleh N, Gerstung M, Kather JN. Artificial intelligence in histopathology: enhancing cancer research and clinical oncology. Nat Cancer. 2022;3(9):1026-1038. doi:10.1038/s43018-022-00436-4

你可能感兴趣的:(2022-09-30)