摘要:
乳腺癌诊断通常需要准确检测癌症转移节点通过划窗整个图像(WSI)。深度卷积的最新进展(CNNs)已经在医学图像分析中显示出显着的成功,特别是在计算机组织病理学方面。由于WSI图像惊人的尺寸,大多数方法都是将一张图片切分成许多小图片并独立的对每个小图片分类(这点和巨型遥感图片类似)。然而,邻近的图片通常共享空间相关性,忽略这些图片的相关性可能会导致错误的预测。在本文中,我们提出了一种神经网络条件随机场(NCRF)这一深度学习框架去检测癌症转移在WSI图像中。NCRF会考虑邻近的小图片之间的空间相关性通过全连接的CRF,直接并入CNN的顶部特征提取器。整个深度神经网络可以端到端的进行反向传播,并且CRF组件具有较小的计算开销。CNN在提取特征的时候也受益于CRF组件的相关性。通过比较没有考虑空间相关性的其他基线方法,我们表明所提出的NCRF框架得到了具有更好的视觉质量的斑点预测概率图。我们的方法在Camelyon16数据集中平均FROC得分为0.8096。
1引言:
乳腺癌是美国女性死亡的主要原因,癌症的早期诊断和治疗在医疗患者中起着至关重要的作用。其中一个最重要的早期诊断是通过显微镜检查苏木精和(H&E)染色的组织病里学载玻片来检测淋巴结的转移。近年来,病理学家一直在使用(WSI)来区分正常细胞核肿瘤细胞并定位恶性病变。但是在极大的WSI中手动检测肿瘤细胞(例如,100000*200000像素)可能是乏味且耗时的。不同的病理学家对检测结果也有着不一致的报道。参与病理学家的总体一致率为75.3%。
在最近这些年,深度卷积神经网络(CNNs)在各种自然图像的计算机视觉任务中有着卓越的提升。比如图片分类,目标检测和语义分割。同样,一些有前景的研究也应用了深度CNN来分析医学图像,特别是WSI。其中某某某使用了DCNN赢得了Camelyon16挑战。应为WSI图片具有巨大的尺寸,大多数研究者都是将WSI切分成小图片(例如:256*256像素),将这些小图片分类为正常或肿瘤。随后获得原始WSI的肿瘤或者正常分类的概率图,并基于这些概率图进行转移检测。但是,小图片和它邻近的小图片具有空间的相关性,因为小图片的切分和训练都是独立的,所以空间相关性没有明确的建模。因此在推理期间,相邻图片的预测可能不一致,原始图片级别的概率图也可能不一致,可能包含孤立的异常值。
为了明确模拟相邻两个小图片之间的空间相关性,Kong等人提出了Spatio-Net使用2D-LSTM(长短记忆网络)层来捕捉基于从CNN分类器提取小图片特征的相关性。但是,Spatio-Net使用的是两阶段训练方法,因此CNN特征提取器并没有关注小图片的空间相关性。最近,我们注意到类似的工作,也是基于CNN分类器提取邻近图片的特征对空间相关性进行建模,然后应用条件随机场(CRF)后处理重构预测的概率图。除了这两个框架存在着相同的问题之外,在CRF后处理期间存在着明显的计算开销,并且作者必须从原始高维数据中选择有限数量的特征用于在CPU上使用CRF。
在这篇文章里面,我们提出了神经条件随机场网络(NCRF)来替代通过邻近图片建立空间相关性的方法。NCRF是概率图模型,它结合了神经网络和条件随机场。它已被用于序列标记和语义分割。我们基于该文献[以后再插]将循环神经网络(RNN)替换为条件随机场,直接包含全连接的条件随机场在CNN特征提取器上,通过平均场近似推理算法获得每个小图片的边缘标签分布。整个深度神经网络采用标准的反向传播算法端到端训练,避免了后处理的阶段。因为平均场推理算法也在GPU上执行,CRF组件的引入了较小的开销并允许非常大的特征尺寸,例如512来自ResNet架构。CNN特征提取器还受益于与CRF的联合训练因为它现在知道了相邻小图片之间的空间相关性。相比不考虑小图片空间相关性的基线方法,我们证明了1)NCRF提高概率图的视觉质量,2)NCRF改进了CNN特征提取器,3)NCRF改善癌症转移检测的性能。在Camelyon16的测试集上,NCRF的最佳得分为0.8096,优于之前的最佳平均FROC得分报道0.8074。
2方法
在这个章节,我们具体描述下所提出的的神经条件随机场NCRF模型的细节,图1显示了NCRF的整体架构。它由两个主要部分组成:CNN和CRF。该CNN组件充当特征提取器。将邻近小图片网格作为输入,并对每个小图片进行编码成固定长度的向量表示。CRF组件采用的网格嵌入作为输入并模拟他们的空间相关性。CRF组件的输出是给定小图片嵌入网格的每个小图片正常或肿瘤类别的边缘分布。我们将在接下来的两节说明每个组件的详细信息。
2.1 通过CNN对小图片嵌入(提取特征)
为了提取每个小图片的综合特征,我们使用了ResNet-18,ResNet-34两个架构,这两个架构已被证明在图像分类任务中具有强大的表现,嵌入向量的维度为512,这比之前那个5大太多了[此处应该查文献]。
2.2 CRF模型
在这个章节,我们描述下CRF组件的方法细节,我们表示一个网格的小图片从CNN得到的向量为x={xi}i=1N,N表示为网格中小图片的数目,比如上图就是9。我们让Y={yi}i=1N成为网格中每个小图片i的随机变量,这代表每个小图片标签的值为是{正常,肿瘤}其中之一。这个条件分布P(Y|x)可以通过Gibbs分布来对CRF建模。
E(y,x)是用来度量Y在采取y给x特殊配置的损失的能量函数。而Z(x)是函数中的一部分用来确保P(Y=y|x)是一个有效的概率分布。在全连接成对CRF中,能量函数定义如下:
这个i和j的范围就是从1到N。φuyi是一个可以度量小图片i在标签为yi下给定图片嵌入向量xi一元概率值,并且φpyi,yj是一个可以度量小图片i和j在标签yi和yj给定图片嵌入向量xi和xj的对势损失。对势φpyi,yj可以建模出在邻近小图片中特殊的联系,如果yi和yj拥有相同的label,并且xi和xj相似的话,对势会得到较低的损失。我们实现一元概率φuyi为负的对数似然函数当小图片i对应标签yi时,其实就是在CNN分类器中softmax层之前标签yi的负对数。这个对势是带了权重的xi和xj的余弦距离:
φpyi,yj=Ⅱ(yi=yj)∙wi,j1-xi∙xjxixj
其中,Ⅱ(yi=yj)是一个指示函数用来检查yi,yj标签之间的相容性,wi,j是一个需要训练的权重用来控制在网格中两张小图片i和j之间的相关强度。往往全连接CRF也包含着另一种编码了两张小图片i和j的空间距离的对势,然而我们并没有明确的观察到加入这样的距离项来带来的改进,如果我们我们在该项之前设置一个可以训练的系数,再训练的过程中这个参数会变成0。另一方面,我们观察到训练权重wi,j表示在网格中不同小图片之间的有很好的距离表达,再稍后我们会有显示这个结果的章节。
为了使得通过标准的反向传播算法来训练CNN-CRF架构,我们需要获得每一个小图片标签yi的边缘分布,这样它可以用和标签真值来计算交叉熵损失。然而,推出确切的边缘是难以处理的。这里我们使用平均场近似的方法,就是原始CRF的分布P(Y)是一个简单分布Q(Y)的近似,这样可以被写成每一个小图片的边缘分布的结果,Q(Y)=iNQi(yi)。通过最小化在Q(Y)和P(Y)之间的KL散度,KL(Q(Y)||P(Y)),我们得到更新的每步通过各自的边缘分布Qi(yi)。
其中E-Qif(Y)指的是得到f(Y)的期望通过所有的变量除了yi,并且
PY=exp(-E(y, x))是一个非标准化的CRF分布。整个平均场近似算法的推理总结在了Algorithm1。
最后,在固定数量的平均场迭代次数之后,我们使用每一个小图片标签的近似边缘分布Qi(yi)来计算交叉熵损失并且训练整个模型通过反向传播算法。
3 实验部分
在这个章节,我们展示一下提出的NCRF方法的评价结果。我们证明它与没有CRF的基线方法的优势在三个方面:1)NCRF相对于其他的极限方法获得平滑的概率图并有着尖锐的边界,2)NCRF通过CNN特征提取器实现了较高小图片精度相对于其他的基线方法,3)NCRF在癌症转移检测中性能优于其他基线方法。
3.1 数据预处理
我们是基于Camelyon16数据集所做的实验,这个数据集包含了160个正常样本和110个肿瘤样本WSI图片用来做训练,81个正常样本图片和49就肿瘤样本用来做测试。病理学家对这些图片进行了相近的注解,但也有一些例外在这篇[]文献中报道。我们对所有的样本进行了40倍的放大,我们使用了Ostu算法每张图片的背景区域,我们使用了Normal_001到Normal_140和Tumor_001和Tumor_100来当训练集,剩下的部分用来做验证集。为了产生小图片,我们首先随机的选择一张图片并随机的采样像素坐标作为每张小图片的中心,我们一共随机采样了200000张768x768张图片从肿瘤区域作为正样本,我们随机采样了200000张768x768张没有肿瘤没有背景的区域作为负样本。
3.2 实现细节
NCRF由框架PyTorch-0.3.1来实现,并通过NVIDIA GeForce GTX 1080Ti GPU来训练。CRF组件中的平均场算法在整个架构中总过迭代了10轮。这个CRF组件在每一个批次中的计算时间少于0.1秒,因为这个平均场近似算法也通过GPU加速了,在训练阶段,一个批次中有20个768x768个图片送入模型,每个768*768的图片会被切成3x3的网格256x256的图片并且他们的相关性标签会取出。每个小图片的像素值会减去128并除128。在训练期间使用了torchvsion变化添加了颜色抖动,参数为:亮度最大差值为64/255,对大差值为0.75,饱和度最大delta为0.25,色调最大值为0.04。我们让图片也随机旋转了90度。优化方法我们使用了随机梯度下降,学习率为0.001,动量参数为0.9。整个网络训练了20轮。每个架构会用不同的随机种子重复训练五次以进行参数初始化。生成的概率图的输出步长为64。
3.3 NCRF得到的平滑概率图
图2显示了在Test_026的预测图分别为基线方法、基线方法+hard negative mining、NCRF+hard negative mining。所有都是基于随机种子seed=0的ResNet-18架构。我们可以从基线方法中看出概率图不考虑空间相关性往往包含孤立的离群值预测,这显然增加了误报的数量。hard negative mining显然减少了基线方法误报的数量,但是真实肿瘤的概率密度也减少了,这降低了模型的灵敏度。与基线方法相比NCRF+hard negative mining不仅可以实现低误报率,在具有清晰边界的真值肿瘤区域之间保持高概率密度。事实上,与基线方法相比,NCRF在Test_026中检测到另外两个肿瘤区域案件。
3.4 NCRF 改善了 CNN 特征提取器
NCRF在训练的时候通过结合相邻之间小图片的空间相关性来改进CNN特征提取器。图3显示了基线方法的小图片分类准确度和NCRF基于ResNet-18架构,在整个训练过程中使用不同的随机种子初始化网络参数。NCRF始终实现比基线方法更高的训练准确度。表1显示了基线方法和NCRF基于不同随机种子的最佳的验证集分类精度。 NCRF在ResNet-18和ResNet-34上的图片分类准确度都要优于基线方法。与之前出CNN特征提取器无法获得空间相关性的的前两阶段培训框架相比,这些结果表明CNN特征提取器受益于与CRF组件的端到端的训练。
学习到的对势权重矩阵显示了强的空间模式,图4展示了在3x3网格中可视化的对势权重。举个例子,这个矩阵中的中心代表的是网格中中心的小图片,这个矩阵的颜色图代表所有小图片的对势权重。我们能看到在网格中一个特殊的小图片,它最近的小图片拥有这最大的对势权重,在网格中离得最近的图片的标签分布关联性越强。
3.5 NCRF 改善了癌症检测
我们在Camelyon16的测试集上评估了癌症转移检测的FROC分数。给出肿瘤转移个数的列表,平均FROC分数由六个负正样本比(1/4, 1/2, 1, 2, 4, 8)的检测敏感率定义。较高的FROC分数意味着更好的检测性能。我们使用了非极大值抑制算法来获得基于一个概率图获得肿瘤转移的样例。
Figure 5 展示了基线方法和NCRF在ResNet-18和ResNet-34基础模型上测试集的FROC 分数曲线。表2展示了基线方法和NCRF在ResNet-18和ResNet-34使用不同随机种子初始化的测试集平均分数。相比较基线方法,NCRF同样在两个架构上都提高了。最好的平均FROC分数时0.8096基于ResNet-18。已经比之前报道的要好很多了。
4 讨论
在这篇论文中,我们提出了一种神经网络条件随机场架构来在WSI影像中检测癌症转移,基于全连接CRF组件,NCRF可以考虑每张小图片与周围小图片的空间相关性。相比较之前的方法,CRF组件整合了CNN特征提取器,并且整个网络可以端到端训练。得益于这个框架,CNN特征提取其也受益于CRF能考虑到空间相关性。相比较没有空间相关性的基线方法,NCRF不仅获得了更平滑的概率图,而且在肿瘤转移检测中表现优异。NCRF是一个通用的技巧也可以用在其他病理学分析中。比如多实例学习,当可以提供全尺寸的标记图时。一个有前景的方向是使用大于3x3的网格作为输入,因为它会联系一个更大的感受野并且可以获得更好的性能表现在肿瘤转移检测中。