白细胞家族里有一种特殊的存在,叫做肿瘤浸润淋巴细胞 (TIL)。当人体内有了肿瘤,它们就会从血液中出发,前往肿瘤所在的地方,并在那里浴血奋战。
大量的TIL存在,就表示机体对抗肿瘤的免疫反应正在发生。基于免疫原理的其中一类抗癌疗法,便是通过发动TIL,来让它们杀死癌细胞。而肿瘤科医师,需要观察病理切片,识别肿瘤组织的免疫特征,从而判断免疫疗法对哪些病患比较有效。
本文用深度学习算法来绘制 TIL 图谱,让一组卷积神经网络 (CNN) 识别 TIL 的分布情况,便有可能为癌症诊断和治疗方案的制定提供一些建议。
为了从数字化H&E染色的组织标本中准确地生成肿瘤浸润淋巴细胞的图谱,我们开发了一种综合的方法,并与之进行交互。这种方法被称为计算染色,并使用深度学习方法来分析图像和工具,将专家反馈纳入深度学习模型。这种迭代反馈提高了TIL映射的整体精度。
团队提取了13种癌症4,759位患者的5,455幅数字化病理图像来做训练,病理学家要在图像中标记 TIL 和坏死发生的区域。
系统根据 TIL 数量和密度等简单的数据,以及细胞群的属性和图像规律等复杂的细节,在临床数据和基因组数据的辅助之下,将肿瘤进行分类,绘制一幅关系对应图谱——包含患者生存率、肿瘤亚型、免疫情况等各项指标与 TIL 之间的关系。
这样,医生便可以根据 TIL 反应的强弱等多种因素,来判断要不要采用基于免疫的治疗方案。
这项研究,是美国政府发起的癌症基因图集(TCGA) 计划的一角,也是其收官项目泛癌症图谱(PanCancer Atlas) 发表的27篇论文中的一篇。
顶部:为了训练和发展CNN模型,病理学家检查图像和标记有淋巴细胞和坏死的区域。然后,这些训练数据被分解成补丁,然后输入到培养淋巴细胞和坏死检测CNN的训练阶段。病理学家定期检查结果的准确性和纠正预测。这就产生了一对受过训练的CNN。
底部:这些经过训练的CNN然后在13种癌症类型的5455张图像上使用,生成TIL映射。在TIL映射生成过程中,从每个图像生成TILs的概率映射。然后对这些概率进行审查,并使用选择性抽样策略建立淋巴细胞选择阈值。然后使用这些阈值获得最终的TIL地图。
使用两种CNN:淋巴细胞浸润分类CNN(淋巴细胞CNN)和坏死分段CNN(坏死CNN)。淋巴细胞cnn对输入信息的小块进行分类,分为淋巴细胞浸润者和无淋巴细胞浸润者。它是一个半监督的cnn,由一个无监督卷积自动编码器(CAE)初始化.坏死CNN分割NEC区域坏死是为了消除坏死区的假阳性,在坏死区细胞核可能具有与淋巴细胞浸润区相似的特征。有关这两个CNN的详细信息见在图S1a中,并在方法细节中进行了描述。
左:低倍率的H&E诊断图像带有肿瘤区域的阳离子在黄色内部;
中间:TIL图;红色代表阳性的TIL贴片;蓝色代表没有TIL斑块的组织区域,而黑色代表没有组织
右:图表:从TIL斑块的亲和性传播聚类中导出的TIL斑块簇。线段将集群成员与每个集群的中心代表连接起来,颜色为arb
综上所述,这些数据表明浸润的性质与肿瘤微环境的各个方面有很强的联系,浸润的性质可能反映了肿瘤细胞特定的分子畸变状态。
选择了CAE作为预训练,这样可以提高CNN的表现。通过这样做,CAE隐式地学习编码位置、外观和形态等。在编码矢量中。我们设计CAE体系结构的准则是,在理想情况下,每个编码向量都应该能够编码一个也是唯一一个细胞核。因此,CAE有13个编码层和3个池化层。
淋巴细胞CNN是建立在训练CAE的基础上:在编码向量上添加了更多的层。因此,我们的淋巴细胞cnn是一个18层网络,有14层卷积层、3层池化层和1层完全连接层。
使用两种不同的CNN来分类坏死区域和TILs,因为实验显示坏死区域和淋巴细胞在不同的图像尺度上可以被最好地识别和分类。坏死CNN模型对较大的输入组织区域效果最好,而淋巴细胞CNN模型对局部高分辨率图像斑块的效果最好,坏死分割cnn用于清除坏死区淋巴细胞cnn中的假阳性。
从图像中提取500x500斑块,并对其进行3次下采样。当放大倍数为20倍时,得到的贴片为333x333像素。坏死分割cnn输出像素分割。结果。我们使用DeconvNet(noh等人,2015)来完成这项任务,因为它旨在预测像素级的类标签,并在多个尺度上处理结构和对象(这更适合于分割与补丁级分类相比的话),并通过几个基准图像数据集证明了该方法具有较高的预测精度。我们训练DeconvNet将每个像素划分为坏死区域的内部或外部。侧有坏死区。对坏死分割CNN的输出进行调整,使之与淋巴细胞CNN的输出分辨率相匹配。如果50x50贴片的一半以上与坏死区域相交,则E贴片分为非淋巴细胞浸润型。
我们首先给背景(组织、细胞质等)建模去核(组织、细胞质等),然后提取含有细胞核的前景。然后监督CNN从无监督CAE中提取无监督编码特征进行分类。将这些层中的参数初始化为与CAE中的参数相同。在前景编码层之后有四个1x1卷积层,在背景编码层之后有两个3x3卷积层。每个增加的层具有320个卷积滤波器。然后我们在这两个分支机构上进行全局平均池化。然后将集合的功能连接在一起,然后是一个带有Sigmoid激活函数的最终分类层。
我们在未标记的数据集上训练CAE,使输入图像和重建图像之间像素方向的均方根误差最小化。没有正则化损失被部署。
We use stochastic gradient descent with batch size 32, learning rate
0.03 and momentum 0.9, and train the network until convergence(6 epoch).
对于淋巴细胞CNN(由CAE构建而成的)训练。
We use stochastic gradient descent with batch size 100, learning rate
0.001, and momentum 0.985.
我们训练cnn直到收敛(64个epoch),并在第20、32和52期将学习速率除以10。
We use sigmoid as the nonlinearity function in the last layer and log-likelihood as the loss function.
没有正则化损失。我们应用了三种类型的数据增强:
我们利用一个特斯拉K40GPU训练CAE和CNN。在测试阶段,我们对测试补丁进行了24次扩展,并对预测结果进行了平均。CAE和CNN使用Theano框架。
作者还利用开源软件编写了一个名为TIL-Map的基于WEB的软件,用于病理学家对图像预测结果进行修改,在这里不讨论
本研究将训练后的淋巴细胞和坏死CNNs应用于用于13种TCGA肿瘤类型的5455张诊断图片。然后根据总体概率确定选择阈值。