肿瘤浸润淋巴细胞在病理图像上的空间组织与分子相关性

关于肿瘤浸润淋巴细胞 (TIL)

白细胞家族里有一种特殊的存在,叫做肿瘤浸润淋巴细胞 (TIL)。当人体内有了肿瘤,它们就会从血液中出发,前往肿瘤所在的地方,并在那里浴血奋战。

大量的TIL存在,就表示机体对抗肿瘤的免疫反应正在发生。基于免疫原理的其中一类抗癌疗法,便是通过发动TIL,来让它们杀死癌细胞。而肿瘤科医师,需要观察病理切片,识别肿瘤组织的免疫特征,从而判断免疫疗法对哪些病患比较有效。

关于本论文

本文用深度学习算法来绘制 TIL 图谱,让一组卷积神经网络 (CNN) 识别 TIL 的分布情况,便有可能为癌症诊断和治疗方案的制定提供一些建议。

为了从数字化H&E染色的组织标本中准确地生成肿瘤浸润淋巴细胞的图谱,我们开发了一种综合的方法,并与之进行交互。这种方法被称为计算染色,并使用深度学习方法来分析图像和工具,将专家反馈纳入深度学习模型。这种迭代反馈提高了TIL映射的整体精度。

  • 团队提取了13种癌症4,759位患者的5,455幅数字化病理图像来做训练,病理学家要在图像中标记 TIL 和坏死发生的区域。

  • 系统根据 TIL 数量和密度等简单的数据,以及细胞群的属性和图像规律等复杂的细节,在临床数据和基因组数据的辅助之下,将肿瘤进行分类,绘制一幅关系对应图谱——包含患者生存率、肿瘤亚型、免疫情况等各项指标与 TIL 之间的关系。

这样,医生便可以根据 TIL 反应的强弱等多种因素,来判断要不要采用基于免疫的治疗方案。

这项研究,是美国政府发起的癌症基因图集(TCGA) 计划的一角,也是其收官项目泛癌症图谱(PanCancer Atlas) 发表的27篇论文中的一篇。

用于培训、模型开发和后续生成TIL映射的流程

肿瘤浸润淋巴细胞在病理图像上的空间组织与分子相关性_第1张图片

顶部:为了训练和发展CNN模型,病理学家检查图像和标记有淋巴细胞和坏死的区域。然后,这些训练数据被分解成补丁,然后输入到培养淋巴细胞和坏死检测CNN的训练阶段。病理学家定期检查结果的准确性和纠正预测。这就产生了一对受过训练的CNN。

底部:这些经过训练的CNN然后在13种癌症类型的5455张图像上使用,生成TIL映射。在TIL映射生成过程中,从每个图像生成TILs的概率映射。然后对这些概率进行审查,并使用选择性抽样策略建立淋巴细胞选择阈值。然后使用这些阈值获得最终的TIL地图。

使用两种CNN:淋巴细胞浸润分类CNN(淋巴细胞CNN)和坏死分段CNN(坏死CNN)。淋巴细胞cnn对输入信息的小块进行分类,分为淋巴细胞浸润者和无淋巴细胞浸润者。它是一个半监督的cnn,由一个无监督卷积自动编码器(CAE)初始化.坏死CNN分割NEC区域坏死是为了消除坏死区的假阳性,在坏死区细胞核可能具有与淋巴细胞浸润区相似的特征。有关这两个CNN的详细信息见在图S1a中,并在方法细节中进行了描述。

左:低倍率的H&E诊断图像带有肿瘤区域的阳离子在黄色内部;
中间:TIL图;红色代表阳性的TIL贴片;蓝色代表没有TIL斑块的组织区域,而黑色代表没有组织
右:图表:从TIL斑块的亲和性传播聚类中导出的TIL斑块簇。线段将集群成员与每个集群的中心代表连接起来,颜色为arb

综上所述,这些数据表明浸润的性质与肿瘤微环境的各个方面有很强的联系,浸润的性质可能反映了肿瘤细胞特定的分子畸变状态。

关于CNN模型

  1. 对用于无监督表示学习的自动编码器进行预训练
  2. 利用预先训练的自动编码器构造cnn
  3. 对构造的cnn进行微调以进行监督分类

选择了CAE作为预训练,这样可以提高CNN的表现。通过这样做,CAE隐式地学习编码位置、外观和形态等。在编码矢量中。我们设计CAE体系结构的准则是,在理想情况下,每个编码向量都应该能够编码一个也是唯一一个细胞核。因此,CAE有13个编码层和3个池化层。

淋巴细胞CNN是建立在训练CAE的基础上:在编码向量上添加了更多的层。因此,我们的淋巴细胞cnn是一个18层网络,有14层卷积层、3层池化层和1层完全连接层。

使用两种不同的CNN来分类坏死区域和TILs,因为实验显示坏死区域和淋巴细胞在不同的图像尺度上可以被最好地识别和分类。坏死CNN模型对较大的输入组织区域效果最好,而淋巴细胞CNN模型对局部高分辨率图像斑块的效果最好,坏死分割cnn用于清除坏死区淋巴细胞cnn中的假阳性。

从图像中提取500x500斑块,并对其进行3次下采样。当放大倍数为20倍时,得到的贴片为333x333像素。坏死分割cnn输出像素分割。结果。我们使用DeconvNet(noh等人,2015)来完成这项任务,因为它旨在预测像素级的类标签,并在多个尺度上处理结构和对象(这更适合于分割与补丁级分类相比的话),并通过几个基准图像数据集证明了该方法具有较高的预测精度。我们训练DeconvNet将每个像素划分为坏死区域的内部或外部。侧有坏死区。对坏死分割CNN的输出进行调整,使之与淋巴细胞CNN的输出分辨率相匹配。如果50x50贴片的一半以上与坏死区域相交,则E贴片分为非淋巴细胞浸润型。

卷积自动编码器细节

我们首先给背景(组织、细胞质等)建模去核(组织、细胞质等),然后提取含有细胞核的前景。然后监督CNN从无监督CAE中提取无监督编码特征进行分类。将这些层中的参数初始化为与CAE中的参数相同。在前景编码层之后有四个1x1卷积层,在背景编码层之后有两个3x3卷积层。每个增加的层具有320个卷积滤波器。然后我们在这两个分支机构上进行全局平均池化。然后将集合的功能连接在一起,然后是一个带有Sigmoid激活函数的最终分类层。

CNN训练以及测试细节

我们在未标记的数据集上训练CAE,使输入图像和重建图像之间像素方向的均方根误差最小化。没有正则化损失被部署。

We use stochastic gradient descent with batch size 32, learning rate
0.03 and momentum 0.9, and train the network until convergence(6 epoch).

对于淋巴细胞CNN(由CAE构建而成的)训练。

We use stochastic gradient descent with batch size 100, learning rate
0.001, and momentum 0.985.

我们训练cnn直到收敛(64个epoch),并在第20、32和52期将学习速率除以10。

We use sigmoid as the nonlinearity function in the last layer and log-likelihood as the loss function.

没有正则化损失。我们应用了三种类型的数据增强:

  • 输入图像是从较大的图像中随机裁剪出来的。
  • 输入图像的颜色被随机扰动。
  • 随机旋转和镜像输入图像。

我们利用一个特斯拉K40GPU训练CAE和CNN。在测试阶段,我们对测试补丁进行了24次扩展,并对预测结果进行了平均。CAE和CNN使用Theano框架。

作者还利用开源软件编写了一个名为TIL-Map的基于WEB的软件,用于病理学家对图像预测结果进行修改,在这里不讨论

淋巴细胞选择阈值的测定

本研究将训练后的淋巴细胞和坏死CNNs应用于用于13种TCGA肿瘤类型的5455张诊断图片。然后根据总体概率确定选择阈值。

  • 第一步是将每一张幻灯片分类,以反映是否有系统的或者根据淋巴细胞的预测。为此,在每一张幻灯片中,从淋巴细胞cnn评分的10个区间中抽取10个斑块(0.10-0.20,0.20-0.25,0.25-0.30,0.30-0.40,0.40-0.50,0.60-0.70,0.70-0.80,0.80-0.90,0.90-1.00)。三名病理学家将其标记为淋巴细胞浸润与否。根据标记的淋巴细胞/非淋巴细胞斑块的数量,将每一张幻灯片分类为7组中的一组:A-G组,分别对应0,1,2,3-7,8,9,10片阳性斑块。
  • 第二步是在每个组中选择一个阈值。每组随机抽取8个slice。使用前面提到的TIL-MAP编辑器手动调整每一个阈值。将一组中所有幻灯片的阈值设置为八个幻灯片样本选择的平均阈值。需要注意的是,如果我们将幻灯片分类为更多的组,那么我们必须手动为更多的幻灯片选择阈值。另一方面,如果我们将幻灯片归类为较少的组,则可能的幻灯片特定偏差的组内差异可能太大。因此,我们选择7个作为组数,在效率和有效性之间取得平衡。

参考文献

  1. 本文讨论文章原文地址

你可能感兴趣的:(论文有感)