paper链接:https://www.nature.com/articles/s41591-019-0462-y
MATLAB code: https://github.com/jnkather/MSIfromHE
作者:
Jakob Nikolas Kather, Alexander T. Pearson, Niels Halama, Dirk Jäger, Jeremias Krause, Sven H. Loosen, Alexander Marx, Peter Boor, Frank Tacke, Ulf Peter Neumann, Heike I. Grabsch, Takaki Yoshikawa, Hermann Brenner, Jenny Chang-Claude, Michael Hoffmeister, Christian Trautwein & Tom Luedde
单位:
MSI与dMMR是什么关系? 因为所以的关系!
因为错配修复基因功能缺陷(dMMR)导致错配修复蛋白的功能异常,所以DNA复制过程中随机产生的错误无法被正常修复,进而出现了微卫星不稳定性高(MSI-H)的现象。临床一般默认dMMR≈MSI-H
传统的MSI检测方法问题:
深度学习算法预测MSI的优点:
虽然免疫疗法现在是癌症治疗的基石,但胃肠道癌症患者通常不会像其他实体恶性肿瘤(如黑色素瘤或肺癌)患者那样受益,除非该肿瘤属于微卫星不稳定(MSI)肿瘤组。在这一组中,约占胃(胃)腺癌(Stad)和结直肠癌(Crc)的15%免疫检查点抑制剂显示出相当大的临床益处,因此最近得到了食品和药物管理局(FDA)的批准。MSI可以通过免疫组织化学或遗传分析来鉴定,但不是所有的患者都进行了MSI筛查,除非是在大容量的三级护理中心。因此,一大批免疫治疗的潜在应答者可能得不到及时的免疫检查点抑制剂治疗,从而错失了疾病控制的机会。
深度学习在一些医学数据分析任务中表现优于人类,并且可以使用肺、前列腺和大脑肿瘤的图像来预测患者的生存和肿瘤中的突变。为了促进普遍的MSI筛查,我们调查了深度学习是否可以直接从H&E染色的组织切片中预测MSI状态。首先,我们在一组三类胃肠癌组织(n=94张幻灯片,n=81名患者,图1a-c,扩展数据图1)上比较了五个卷积神经网络。残差学习卷积神经网络Resnet18是一种有效的肿瘤检测器,其曲线下的样本外面积(AUC)>0.99,这代表了在当前的技术水平的改进。另一个结果18(图1,d)经培训,从癌症基因组图谱(TCGA):n=315福尔马林固定石蜡包埋(FFPE)、STAD样本(TCGA-STAD),n=360 CRCFFPE样本(TCGA-CRC-DX)和n=378个CRC快速冷冻样本(TCGA-CRC-KR;补充表1)中,对大型患者队列中的MSI与微卫星稳定性(MSS,图1E)进行了分类:n=315个福尔马林固定的石蜡包埋(FFPE)样本(TCGA-STAD),n=360个CRC16的FFPE样本(TCGA-CRC-DX)。
肿瘤组织被自动检测,然后细分成100,570(TCGA-STAD)、60,894(TCGA-CRC-KR)和93,408(TCGA-CRC-DX)颜色归一化的瓷砖,其中深度学习模型对MSI进行评分。在TCGA-CRC-DX测试队列中,真实的MSI图像切片(如补充表2中所定义)MSI得分中位数为0.61(95%置信区间(CI),0.12-0.82;图2a),而真实的MSS切片的MSI得分为0.29(95%可信区间,0.08-0.57;双尾t检验P=1.1×10−6;图2b)。在TCGA-CRC-KR测试队列中,在TCGA-CRC-KR测试队列中,MSI的切片MSI得分为0.50(95%CI,0.17-0.80),MSS切片的得分为0.22(95%CI,0.0 6~0.6 0;P=7.3×10−11),表明我们的方法可以很好地区分快速冷冻和FFPE样本中预测MSI的特征。用于MSI检测的患者水平AUC在TCGA-STAD中为0.81(95%置信区间,0.69-0.90),在TCGA-CRC-KR中为0.84(95%可信区间,0.73-0.91),在TCGA-CRC-DX中为0.77(95%可信区间,0.62-0.87)(扩展数据图2a;MSI频率列在补充表3中)。
多中心DACHES研究被用作外部验证集(n=378名患者)。使用自动肿瘤检测器和TCGA-CRC-DX上训练的MSI检测器(图2c),患者水平的AUC为0.84(95%CI,0.72-0.92)(图2d)。对FFPE样本进行训练并对FFPE样本进行训练的模型优于对冷冻样本进行训练并对FFPE样本进行训练的模型。类似地,在CRC样本上训练并用于CRC样本的模型比在STAD样本上训练并在CRC样本上使用的模型执行得更好(扩展数据图2a)。分析我们提出的方法:我们对来自日本横滨的185例胃癌患者(KCCH队列)进行了MSI检测。亚洲人的胃癌与非亚洲人的胃癌有着非常不同的组织学和临床病程。在TCGA-STAD(大约80%非亚洲人)上训练的分类器在KCCH队列中的AUC达到0.69(95%CI,0.52-0.82)(0%非亚洲人;扩展数据图2a)。因为MSI是一种泛肿瘤生物标志物,具有超越胃肠道癌症的临床用途,我们在MSI高发的子宫内膜癌(UCEC21,n=327名患者)样本中额外训练和测试了我们的方法,在坚持治疗的患者中,MSI检测的AUC为0.75(95%CI,0.63-0.83;扩展数据图2a)。
虽然我们的方法在一系列人类肿瘤,取得了稳健的性能,并超过了之前报道的从组织学预测分子特征的性能,我们的实验指出了一些局限性。分类能力不一定超出训练集中存在的癌症类型和种族。更大的训练队列可能会提高分类性能,因为网络可以学习罕见的形态变体。另一个限制是所需的组织大小。为了定义其下限,我们生成了“虚拟活检”,并发现在边缘长度为256µm的大约100块方块上表现平稳,这表明活检足以用于MSI预测(扩展数据图2b,c)。
图1|H&E组织学中的肿瘤检测和MSI预测。
a 训练卷积神经网络(CNN)作为STAD(胃腺癌)及CRC(结直肠癌)的肿瘤细胞检测,基准尺:4mm;
b)肿瘤染色区域分成小方块;
c)颜色归一化,并将其分类为MSI和MSS,基准尺 256µm;
d)对另一个网络进行训练, 用于MSI和MSS分类的训练;
e) 上述自动化流程应用到留存的患者的数据集。
M S I 状 态 样 本 的 空 间 模 式 图 V S M S S 状 态 样 本 的 空 间 模 式 图 MSI状态样本的空间模式图 VS MSS状态样本的空间模式图 MSI状态样本的空间模式图VSMSS状态样本的空间模式图
训 练 集 / 验 证 集 ; 验 证 集 A U C = 0.84 ; M S I 状 态 与 转 录 组 学 及 免 疫 组 化 数 据 集 的 皮 尔 森 相 关 系 数 训练集/验证集;验证集AUC=0.84;MSI状态与转录组学及免疫组化数据集的皮尔森相关系数 训练集/验证集;验证集AUC=0.84;MSI状态与转录组学及免疫组化数据集的皮尔森相关系数
图2:外部验证集中的分类性能。
为了对黑盒MSI检测器进行反向工程,我们将MSIness(MSI预测方块的比例)与我们测试集中的转录和免疫组织化学数据相关联。在胃癌中,MSIness与淋巴细胞基因表达特征相关,在结直肠癌中与PD-L1表达和干扰素-γ(干扰素γ)特征相关(图2e,补充表4)。在空间上,预测的MSI与低分化和富淋巴细胞的肿瘤区域重叠(扩展数据图3),这与组织病理学知识一致。微血管密度指数是一种预测和预测生物标志物22、23,相应地,在达赫斯队列中的多脏器系统肿瘤患者中,高MSIness定义了总体存活率较差的组(单变量Cox风险比1.65(95%置信区间,1.002.73),对数秩检验,P=0.0207,补充表5中的多变量模型)。虽然这在四变量模型(风险比,1.37(95%置信区间,0.88-2.14);补充表5)中没有统计学意义,但未来的临床试验可以确定这些MSI样瘤患者对癌症免疫治疗的反应。
癌症免疫疗法改变了肿瘤学的面貌,但确定哪些患者将从免疫疗法中受益仍然是一个关键挑战。近日,美国临床肿瘤学会宣布,发现新的免疫治疗生物标记物是2019年癌症研究的重中之重(http://www.asco.org/research-progress/reports-studies/clinical-canceradvances-2019/clinical-cancer-advances-2019-glance).。然而,即使是已经确立的生物标志物,如MSI,今天也没有得到普遍的测试。我们的方法可以低成本在三级护理中心实施(扩展数据图4a,b)。它不需要额外的实验室组织测试,可以从无处不在的现有数据中推断MSI状态。在对更大的数据集进行培训和前瞻性验证之后,这最终可以有效地识别MSI肿瘤患者,使癌症免疫治疗的好处能够分配给更广泛的目标人群。
在线内容:
有关任何方法、其他参考文献、自然研究报告摘要、源数据、代码声明和数据可用性以及相关加入代码的信息,请访问https://doi.org/10.1038/s41591-0190462-y。
Methods
道德声明。所有实验都是根据“赫尔辛基宣言”和“涉及人体的生物医学研究国际伦理指南”进行的。匿名档案组织样本是从国家肿瘤疾病中心(NCT;包括达克斯试验)的组织库和海德堡大学曼海姆大学医学中心(UMM)的病理档案中检索的,经机构伦理委员会批准后,如上文13所述的那样,匿名档案组织样本是从NCT的组织库中检索的,其中包括达克斯试验中的样本和海德堡大学曼海姆大学曼海姆大学医学中心(UMM)的病理档案中的样本。补充表1列出了所有队列的临床数据。
肿瘤检测、MSI检测和患者队列。
为了训练用于胃肠道癌组织学图像的自动肿瘤检测器,我们使用了来自UMM和NCT组织库的大肠癌组织标本和胃癌手术标本。这个队列已经在前面描述过,包含了来自n=81名患者的n=94张完整幻灯片图像。手动注释这些图像中的区域并将其分类为肿瘤和两种类型的非肿瘤组织(致密和疏松组织,分别代表肌肉和/或间质以及脂肪和/或粘液),产生边缘长度为256µm的11,977个独特的图像块。所有这些图片都可以在https://doi.Org/10.5281/zenod.2530789上免费下载。如前所述执行图像预处理,包括颜色归一化。对于颜色归一化,我们使用Macenko方法,该方法将所有图像转换到参考颜色空间,如前所述
我们从TCGA检索了315例STAD(诊断玻片,FFPE组织)、387例大肠癌(CRC-KR;冰冻切片,速冻组织)、360例CRC(CRC-DX;诊断玻片,FFPE组织)和492例UCEC(诊断玻片,FFPE组织)的组织学图像。所有幻灯片都包含肿瘤组织(在盲目手动审查之后),并且具有作为元数据的一部分的分辨率(每像素微米)。训练期间,随机抽取99例(STAD)、109例(CRC-KR)、100例(CRC-DX)和110例(UCEC)患者作为测试集。在所有情况下,训练和测试集在患者水平上被分开,并且任何训练集中都不存在来自测试患者的图像块。有关这些数据集和所有图像文件的更详细描述,可通过开放源码许可免费下载,网址为:https://doi.org/10.5281/zenod.2530835和https://doi.org/10.5281/zenodo.2532612.。所有的TCGA图像都可以从美国国立卫生研究院(https://portal.gdc.cancer.gov/).)的公共储存库下载
对于TCGA-CRC和TCGA-STAD,所有以前被定义为MSI-H的患者都包括在MSI组中。所有MSI状态未知但突变计数>1,000(之前定义为)的患者也包括在MSI组中(任何队列中少于10名患者都是如此)。补充表2列出了用于确定所有队列中的MSI的方法。在TCGA队列中,每张幻灯片少于10个图像块的患者不用于预测。作为结直肠癌的外部验证队列,我们使用了基于人群的DACHS研究中的n=378名患者,这是一项德国西南部的结直肠癌病例对照研究,对研究地区20多家诊所登记的患者进行了长期随访。此外,我们分析了来自KCCH的n=185名患者的数据,如前所述19。关于队列的更多信息见补充表1-3。
**神经网络模型、肿瘤检测和MSI检测。**对于胃肠道肿瘤的检测,我们训练了一个具有深度残差学习的卷积神经网络(Resnet18)模型,通过迁移学习对肿瘤和正常组织进行分类。TCGA-STAD、TCGA-CRC-KR、TCGA-CRC-DX和DACHS使用全自动胃肠道肿瘤探测器,而TCGA-UCEC和KCCH则由病理学家划定肿瘤区域。对于MSI检测,我们为每种肿瘤类型训练了另一个resnet18模型。我们选择了resnet18,因为我们的初步实验表明,在五个流行的我们在我们的肿瘤检测数据集上比较的神经网络模型12,27-30(扩展数据图1),resnet18与类似性能的模型(alexnet,vgg19)相比,训练时间短,分类性能优异,参数更少,降低了过度拟合的风险。
每类图像块的数量通过下采样来均衡。如果在三次连续的验证检查(每256次迭代检查一次)中,所有训练块的12.5%的坚持集合中的验证准确度没有增加,则停止训练。如前所述,所有卷积神经网络都是在ImageNet(www.image-net.org)数据库上预先训练的。只有最后10层的重量是可训练的,而所有其他重量都是冻结的。我们使用ADAM算法进行训练,用 1 ∗ 1 0 − 4 1* 10^{-4} 1∗10−4的L2正则化来抵消过拟合,并使用固定学习率 1 × 1 0 − 6 1×10^{−6} 1×10−6用于TCGASTAD、TCGA-CRC-DX和TCGA-CRC-KR, 1 × 1 0 − 4 1×10^{−4} 1×10−4用于TCGA-UCEC。DACH和KCCH仅用于预测,不用于训练。所有代码均在MATLAB R2018a中实现,并在配备NVIDIA图形处理单元(GPU;Titan XP、Quadro P6000、Titan RTX)的桌面工作站上运行。与之前的研究一样,在接收器操作特性分析中,性能评分为AUC。除非另有说明,否则AUC值以中位数给出,具有95%的置信区间,由500倍的自助法计算,采用“偏差校正和加速百分位数法”计算。我们的源代码可以在https://github.com/jnkather/MSIfromHE上免费获得,可以应用于任何肿瘤类型。
统计
通过用MATLAB R2018a中的“性能曲线”计算的接收器工作特性曲线下的面积来评估分类器的性能。相关性用R版本3.5.1‘cor.test’用‘Pearson’方法计算。
报告摘要。有关研究设计的更多信息,请参阅与本文相关的“自然研究报告摘要”。
Data availability
有关数据集的所有完整幻灯片图像:https://portal.gdc.cancer.gov/.
肿瘤检测的训练图像:https://doi.org/10.5281/zenod.2530789。
有关MSI检测的训练图像:https://doiOrg/10.5281/zenod.2530835和https://doi.org/10.5281/zenodo.2532612.。
图1的源数据可在公共存储库中获得,网址为: https://doi.org/10.5281/
zenodo.2530789, https://doi.org/10.5281/zenodo.2530835 and https://doi.org/10.5281/
zenodo.2532612.
包含这些数字的原始数据的图1、2和扩展数据图1、2的源数据可在该论文的在线版本中获得。
Code availability
源代码可在以下位置获得:https://github.com/jnkather/MSIfromHE.
扩展数据图1:五种深度神经网络结构的比较。我们比较了五种神经网络结构在具有三个平衡类的肿瘤检测数据集上的准确率和训练时间。Alexnet,VGG19,和resnet18在保留的图像中获得了>95%的准确率,而inceptionv3和squeezenet在这个基准任务中表现不佳。在性能良好的机型中,resnet18的参数数量最少,这使得它可能更便携,更不容易过度拟合。在此比较中,我们将数据集分为70%的训练图像、15%的验证图像和15%的测试图像。每个网络在此图中显示两次:学习速率为 1 × 1 0 − 6 1 × 10^{−6} 1 × 10−6和 1 × 1 0 − 5 1 × 10^{−5} 1 × 10−5。训练25个epochs。Resnet18随后在数据集上进行了重新训练,在样本外的5倍交叉验证肿瘤检测中获得了AUC0.99的中位数。该数据集来自n = 94 全幻灯片图像,来自n = 81 患者,可在http://doi.org/10.5281/zenod.2530789上获得。
主 要 研 究 流 程 及 各 项 试 验 的 A U C 值 主要研究流程及各项试验的AUC值 主要研究流程及各项试验的AUC值
扩展数据图2|分类器性能的附加数据。
a,所有实验的流程图。接收器工作特性曲线下方的区域提供了对患者水平分类器准确性的总体度量,该度量是在保持测试集中进行的。标记符号来自https://twemoji.twitter.com/(根据CC-BY 4.0许可获得许可)。
b,虚拟活检中的分类性能。我们预测了DACHS队列中所有患者的MSI状态,将块(平铺)的数量从3个改变为2,054个,这是每张完整幻灯片图像的中位数。此实验重复了五次,使用了不同的随机选取的。因为一个块的边缘长度为256 µm,所以带有1个来自标准18G活检针的100%肿瘤组织的1 cm组织圆柱体相当于117个块,而16G针相当于156个块。在临床常规中,通常每个活检核心只有一部分包含肿瘤,但是会收集多个活检核心。随着组织尺寸的增加,性能稳定在AUC = 0.84。这表明典型的活检足以进行MSI预测。CI,置信区间。
C,DACHS中所有患者(n = 378患者)的阻滞数分布。
d,以高或低的预测MSI度分层的遗传性MSS肿瘤患者的总体存活率。在这一组中,MSI高的患者的生存期短于MSI低的患者。该表显示了有风险的患者数量。P值通过双面对数秩检验计算(n = 350例患者)。
扩展数据图3:MSI瘤内异质性的形态学相关性。
a,是基因确定为MSI的测试集患者的组织学图像。
b,相应的预测MSI的地图为在所示的图像一个。
突出显示了三个区域。1区是具有坏死和细胞外粘液的腺体区;该区域主要被预测为MSS。区域2是一个实心的去分化区域,预计为MSI。区域3主要包含与免疫细胞混合的出芽的肿瘤细胞,强烈预测该区域为MSI。这些代表性的例子在一起表明,不同的形态引发了不同的预测,并且这些预测可以追溯到人类可以理解的模式。比例尺,2.5毫米。这个数字代表n DACHS队列中有378名患者。
扩展数据图4|深度学习的MSI筛查的估计成本。
a,在具有现有数字病理核心设施(如芝加哥大学医学中心)的三级医疗中心中,通过深度学习与免疫组织化学进行MSI筛选的工作流程。费用因国家/地区而异,在欧洲通常比美国便宜。在这里,我们列出了在美国适用的费用。b,数字病理学和深度学习基础设施的设置成本(固定成本)。H&E,苏木精和曙红;MMRd,错配修复缺陷;NGS,下一代测序;质量控制,质量控制。资料来源和假设如下。(1)价格从https://htrc.uchicago.edu/fees.php?fee=2&fee=2获得,于2019年3月11日检索。我们假设在大容量全滑动扫描仪上放大20倍。(2)价格从https://techcrunch.com/2019/03/07/scaleway-releases-cloud-gpu-instances-for-e1-per-hour/和https://www.scaleway.com/获得,于2019年3月11日检索。我们假设需要在Nvidia Tesla P100 GPU上进行1小时的GPU计算,才能处理一张完整的幻灯片图像,以便一名患者进行预测。(3)美国现行程序术语(CPT)代码88342,四抗体标本,每次染色$ 852.00。(4)芝加哥大学医学院病理学系的个人通讯,2019年3月。(5)德国国家肿瘤疾病中心医学肿瘤学的个人通讯。(6)基于多个数字病理供应商的报价,个人对高通量幻灯片扫描仪的成本以及有限的存储容量的经验。(7)基于供应商对专业硬件的多次报价,假设一台带有一个NVidia Tesla V100 GPU或类似GPU的塔式服务器,2019年3月。在此示意图中未考虑人员成本和基础设施成本。