2021-08-27--卷积神经网络识别肿瘤微环境-TILs等等空间分布图

image.png

ABSTRACT

背景:不同类型细胞的空间分布可以揭示癌细胞的生长模式、与肿瘤微环境的关系以及机体的免疫反应,这些都是癌症的重要“标志”。病理学家手动识别和定位病理切片中所有细胞的过程是极其劳动密集型且容易出错的。
方法:我们开发了一个自动化的细胞类型分类管道,包括细胞核分割、基于卷积神经网络的肿瘤细胞、基质细胞和淋巴细胞分类,以及提取肺癌病理图像的肿瘤微环境相关特征。
开发脚本
训练数据集和独立测试数据集的总体分类准确率分别为92.9%和90.1%。
通过识别细胞和分类细胞类型,这条管道可以将病理图像转换成肿瘤、基质细胞和淋巴细胞的“空间图”。从这个空间图中,我们可以提取表征肿瘤微环境的特征。
基于这些特征,我们开发了一个基于图像特征的预后模型,并在两个独立队列中验证了该模型。在对包括年龄、性别、吸烟状况和阶段在内的临床变量进行调整后,预测的风险组可作为独立的预后因素

研究前证据

肺恶性组织中的主要细胞类型包括肿瘤细胞、基质细胞和淋巴细胞。
基质细胞是结缔组织例如成纤维细胞和周细胞
它们与肿瘤细胞的相互作用在癌症进展和转移抑制中起重要作用。
例如,癌细胞和基质细胞之间的互相联系(crosstalk)是侵袭性生长和转移所需要的
TILs的空间异质性与肿瘤分子特征和患者预后相关。

研究的附带价值

该管道成功地可视化了肺ADC病理图像感兴趣区域中肿瘤、基质细胞和淋巴细胞的空间分布。

所有可用证据的含义

肿瘤病理图像不仅包含肿瘤分级和亚型分类的基本信息[1],还包含肿瘤微环境和不同类型细胞空间分布的信息。
研究细胞空间组织的主要技术挑战是如何从肿瘤组织中分类不同类型的细胞。对于病理学家来说,手动识别和定位病理切片中的每个细胞是不切实际的。
在这项研究中,我们开发了一个CNN模型来自动分类肺腺癌(ADC)病理图像的肿瘤细胞、基质细胞和淋巴细胞。此外还开发了一个自动图像分析管道ConvPath,由细胞核分割、细胞类型识别、微环境表征和预后组成(图fig1)


image.png

1.Methods

1.1Datasets

TCGA数据集
the National Lung Screening Trial project (the NLST dataset)
the University of TexasSpecial Program of Research Excellence (SPORE) in Lung Cancer project (the SPORE dataset)
the National Cancer Center/Cancer Hospital of Chinese Academy of Medical Sciences, China (the CHCAMSdataset).
TCGA data, including 1337 tumor images from 523 patients。All TCGA images werecaptured at X20 or X40 magnification and included both frozen andFormalin-Fixed, Paraffin-Embedded (FFPE) slides.
NLST的数据,包括来自201名患者的345张肿瘤图像,所有NLST图像都是FFPE幻灯片,以40倍放大拍摄。
CHCAMS数据包括来自102例I期ADC患者的102幅图像,都是FFPE载玻片,以20倍放大拍摄。
SPORE data 包括来自112名患者的130幅图像;FFPE;20X


image.png
1.2.以原子核质心为中心的图像块的提取

病理学家使用ImageScope的注释工具(徕卡生物系统,图2a)检查了H&E染色的病理图像载玻片和人工标记的感兴趣区域(ROI--Region of Interest)边界。ROI由病理图像中的主要恶性区域定义。

ConvPath从每个选定的ROI中随机选择了10个采样区域。在40倍或20倍放大的图像中,采样区域的大小分别为5000x5000或3000x3000像素。

在每个采样区域中,ConvPath进一步提取了以原子核质心为中心的80x80像素patches(对于40倍放大的图像,首先提取了160x160像素图像块,并将其大小调整为80x80像素)(图2b,补充图1)。

为了提取图像块,首先将RGB颜色空间转换为H&E颜色空间,反卷积矩阵设置为[0.550 0.758 0.351;0.398 0.634 0.600;0.754 0.077 0.652] [8].采用由开和闭组成的形态学操作来处理苏木精通道图像[9]。

ConvPath使用水平集分割技术( a level set segmentation
technique )检测原子核边界[10,11]。

最后,从原始病理RGB图像中提取使用检测到的细胞核质心作为中心的图像块(图2b)。

image.png
1.3.convpath软件中的深度学习算法

ConvPath结合了一个CNN [12-14]来识别病理图像斑块中心的主要细胞类型,包括肿瘤细胞、基质细胞和淋巴细胞(图3a,补充表2)。
CNN的输入是一个80*80的图像patch,归一化到范围[-0.5,0.5]有3个通道,分别对应红色(R)、绿色(G)和蓝色(B)通道。
输出是一个软最大层,三分类:tumor cell, stromal cell, and lymphocyte.
The CNN was trained using a batch size of 10, a momentum of 0.9, a weight decay of 0.0001, an initial learning rate of 0.01, which shrinks by 0.99995 in each step, and training steps of 20,000.
图像块被旋转和翻转以增加样本大小。
A drop connect probability of 0.5 was used in all convolutional layer parameters.
NLST、TCGA数据做训练,SPORE做外部验证。(3b,3c)


image.png
1.4.肿瘤微环境特征提取

基于CNN的预测结果,ConvPath将病理图像转换为肿瘤细胞、基质细胞和淋巴细胞的“空间图”。
ConvPath使用核平滑器来分别定义ROI内的肿瘤细胞、基质细胞和淋巴细胞区域(图4b)。
为了定义肿瘤细胞区域,ConvPath提取了所有图像块中心的坐标,如果它们已经从上一步被识别为肿瘤细胞,则将它们标记为1,否则标记为0。
对于图像上的每个点,ConvPath通过用标准正常密度核K (z/h)( normal density kernel K(z/h))加权其所有邻居来计算作为肿瘤细胞区域的概率,其中z被定义为每个图像块的点和中心之间的距离,h,即带宽,被定义为估计细胞直径的2倍。概率大于0.5的区域被定义为肿瘤细胞区域。同样的方法用于定义基质细胞区和淋巴细胞区。
下一步,Convpath为每个区域计算了2个特征(S表4),三种细胞区域的周长分别除以区域面积的平方根、相应成分区域面积大小除以图像大小。

image.png
image.png
1.5.统计分析

R packages survival、glmnet、 clinfun
存活时间被定义为NLST和TCGA数据集从诊断到死亡或最后一次接触的时间,以及CHCAMS数据集从诊断到复发或最后一次接触的时间。
使用带有弹性惩罚的Cox回归模型(Cox regression model with elastic penalty)对NLST患者训练预后模型,以预测每个样本区域的风险评分
每个患者的最终风险评分是通过对该患者10个采样区域的风险评分进行平均来确定的。
过根据每个数据集的预测风险评分中位数对患者进行二分,在TCGA和CHCAMS数据集上评估该预后模型的性能。
在验证研究中,最长随访时间设定为6年,因为6年后的患者生存率可能与癌症特异性事件没有直接关系。
此外,多变量Cox比例风险模型用于测试在调整临床变量(包括年龄、性别、吸烟史和分期)后,预后风险评分是否具有统计学意义。

1.6.数据可用性

NLST和TCGA在线申请可获取
(CHCAMS)受到限制

2. Results

2.1.ConvPath高精度分类肺腺癌细胞类型

从TCGA和NLST数据集(图2,补充表3)的29张载玻片中提取11,988个以细胞核质心为中心的肿瘤、基质和淋巴细胞图像块,并用于训练CNN模型(图3a)。补充图1中显示了示例图像补丁。

image.png

CNN模型在训练图像上的总体分类准确率对于淋巴细胞为99.3%,对于基质细胞为87.9%,对于肿瘤细胞为91.6%(图3b)。
SPORE数据集中的独立交叉研究分类率,淋巴细胞为97.8%,基质细胞为86.5%,肿瘤细胞为85.9%(图3c)。

2.2.来自预测采样区域的肿瘤微环境特征与总生存率相关

在每个预测的取样区域中,使用核平滑算法检测肿瘤、基质和淋巴细胞区域(图4b,方法部分)。
对于每种细胞类型的区域,测量诸如周长和大小的简单参数。为了确保在不同大小拍摄的图像幻灯片之间的可比性,通过采样区域的面积对参数进行标准化。
在单变量Cox分析中,6个提取的特征中有4个与NLST数据集中的生存结果显著相关(补充表4)。有趣的是,基质区域的周长和面积都是良好的预后因素,表明基质细胞对肺ADC患者有保护作用(补充图3和4)。

image.png
2.3.基于图像特征的预测模式的开发和验证

基于细胞类型的区域特征,开发预后模型;根据评分二分类患者。NLST上训练,在TCGA和CHCAMS上得到了验证

image.png
image.png
2.4.预测的风险评分与adc亚型的严重程度相关

在CHCAMS数据集上较高的风险评分与更具侵袭性的ADC亚型相关,如实性优势型ADC和侵袭性粘液型ADC (p = 0.0039)。
但在多变量生存分析中,影像学风险评分与ADC亚型无关(补充表5)。


image.png
2.5.convpath软件和网络服务器

convpath软件访问地址

3.Discussion

Convpath的计算时间可以通过几种方式减少:1)通过将我们的模型仅应用于感兴趣的肿瘤区域,该区域可以由病理学家注释或者由我们的肿瘤检测算法检测。根据切除的组织,该步骤将处理时间减少十倍。2)通过创建多个线程使用并行处理。总之,通过利用其他现有的计算方法和硬件基础设施,整个幻灯片的处理时间可以减少到1小时以内。
第二,在ConvPath CNN算法中只考虑了三种主要的小区类型;因此,这种CNN模型对离焦细胞类型(如巨噬细胞和上皮细胞)很敏感。此外,使用我们的算法无法区分不同亚型的淋巴细胞,如CD4+和CD8+ T细胞[47,60]。更全面的标记和免疫组织化学染色将有助于解决这个问题。第三,本研究不包括对细胞空间分布的更全面分析[61,62]。分析空间模式,如细胞聚集和细胞间相互作用,将有助于我们理解肿瘤进展的机制和对肿瘤细胞的免疫反应

你可能感兴趣的:(2021-08-27--卷积神经网络识别肿瘤微环境-TILs等等空间分布图)