【U-Net2015】U-Net: Convolutional Networks for Biomedical Image Segmentation mage Segmentation

U-Net: Convolutional Networks for Biomedical mage Segmentation

生物医学图像语义分割的卷积神经网络


arXiv:1505.04597v1 [cs.CV] 18 May 2015
文章地址:https://arxiv.org/abs/1505.04597
代码地址:https://github.com/Jack-Cherish/Deep-Learning/tree/master/Pytorch-Seg/lesson-2


摘要

  有很大的同意,成功地训练深度网络需要许多千人的注释训练样本。在本文中,我们提出了一种网络和训练策略,该策略依赖于对数据增强的有力使用,以更有效地使用现有的注释样本。该架构由一个捕捉上下文的收缩路径和一个实现精确定位的对称扩展路径组成。我们表明,这样的网络可以从很少的图像中进行端到端的训练,并在ISBI挑战中胜过之前的最佳方法(滑动窗口卷积网络),用于分割电子显微镜堆中的神经元结构。使用在透射光显微镜图像(相位对比和DIC)上训练的同一网络,我们在2015年ISBI细胞追踪挑战赛中以较大的优势赢得了这些类别。此外,该网络是快速的。在最近的GPU上,对512x512的图像进行分割需要不到一秒钟。完整的实现(基于Caffe)和训练好的网络可在http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net。


1 导言

  在过去的两年中,深度卷积网络在许多视觉识别任务中的表现都超过了现有技术水平,例如[7,3]。虽然卷积网络已经存在了很长时间[8],但由于可用的训练集的大小和考虑的网络的大小,他们的成功是有限的。Krizhevsky等人[7]的突破是由于在有100万张训练图像的ImageNet数据集上对一个有8层和数百万个参数的大型网络进行监督训练。从那时起,甚至更大、更深的网络也被训练出来了[12]。

  卷积网络的典型用途是在分类任务上,对图像的输出是一个单一的类别标签。然而,在许多视觉任务中,特别是在生物医学图像处理中,所需的输出应该包括定位,也就是说,应该给每个像素分配一个类标签。此外,在生物医学任务中,数以千计的训练图像通常是无法达到的。因此,Ciresan等人[1]在滑动窗口设置中训练了一个网络,通过提供该像素周围的局部区域(补丁)作为输入来预测每个像素的类别标签。首先,这个网络可以进行定位。其次,以斑块为单位的训练数据要比训练图像的数量大得多。由此产生的网络在ISBI 2012的EM分割挑战中以较大的优势获胜。

  很明显,Ciresan等人[1]的策略有两个缺点。首先,它的速度相当慢,因为网络必须为每个补丁单独运行,而且由于重叠的补丁,有很多冗余。其次,在定位精度和使用上下文之间存在着权衡。较大的斑块需要更多的最大集合层,从而降低了定位的准确性,而小斑块则允许网络只看到很少的上下文。最近的方法[11,4]提出了一个分类器输出,考虑到了来自多层的特征。良好的定位和使用上下文是可以同时进行的。
【U-Net2015】U-Net: Convolutional Networks for Biomedical Image Segmentation mage Segmentation_第1张图片

图1. U-net结构(最低分辨率下32x32像素的例子)。每个蓝框对应于一个多通道特征图。通道的数量表示在盒子的顶部。X-Y尺寸在盒子的左下角提供。白色方框代表复制的特征图。箭头表示不同的操作。

  在本文中,我们建立在一个更优雅的架构上,即所谓的 “全卷积网络”[9]。我们修改并扩展了这一架构,使其能够在很少的训练图像中工作,并产生更精确的分割;见图1。[9]的主要思想是通过连续的层来补充通常的收缩网络,其中池化运算符被上采样运算符所取代。因此,这些层增加了输出的分辨率。为了进行定位,来自收缩路径的高分辨率特征与上采样输出相结合。然后,一个连续的卷积层可以学习在此信息的基础上组合出更精确的输出。
【U-Net2015】U-Net: Convolutional Networks for Biomedical Image Segmentation mage Segmentation_第2张图片

图2. 对任意大型图像进行无缝分割的重叠瓦片策略(这里是对EM堆栈中的神经元结构进行分割)。预测黄色区域的分割,需要蓝色区域的图像数据作为输入。缺少的输入数据通过镜像进行推断
  我们架构中的一个重要修改是,在上采样部分,我们也有大量的特征通道,这使得网络可以将背景信息传播到更高的分辨率层。因此,扩展路径或多或少地与收缩路径对称,并产生一个U形结构。该网络没有任何全连接层,只使用每个卷积的有效部分,也就是说,分割图只包含输入图像中可获得完整上下文的像素。这种策略允许通过重叠-瓷砖策略对任意大的图像进行无缝分割(见图2)。为了预测图像边界区域的像素,缺失的上下文是通过镜像输入图像来推断的。这种平铺策略对于将网络应用于大型图像非常重要,因为否则分辨率会受到GPU内存的限制。

  由于我们的任务中可用的训练数据非常少,我们通过对可用的训练图像进行弹性变形来使用过度的数据增强。这允许网络学习对这种变形的不变性,而不需要在注释的图像语料库中看到这些转换。这在生物医学分割中特别重要,因为变形曾经是组织中最常见的变化,而现实的变形可以被有效地模拟。Dosovitskiy等人[2]在无监督特征学习的范围内展示了数据增强对于学习不变性的价值。
【U-Net2015】U-Net: Convolutional Networks for Biomedical Image Segmentation mage Segmentation_第3张图片

图3. 用DIC(微分干涉对比)显微镜记录玻璃上的HeLa细胞。(a) 原始图像。(b)与地面真实分割的叠加。不同的颜色表示HeLa细胞的不同实例。(c) 生成的分割面具(白色:前景,黑色:背景)。(d) 带有像素损失权重的地图,迫使网络学习边界像素。

  许多细胞分割任务中的另一个挑战是分离同一类别的触摸对象;见图3。为此,我们提出使用加权损失,在损失函数中,接触细胞之间的分离背景标签获得较大的权重。

  由此产生的网络适用于各种生物医学的分割问题。在本文中,我们展示了EM堆栈中的神经元结构的分割结果(一个在ISBI 2012上开始的持续竞赛),其中我们超过了Ciresan等人的网络[1]。此外,我们还展示了2015年ISBI细胞追踪挑战中光镜图像中的细胞分割结果。在这里,我们以较大的优势赢得了两个最具挑战性的二维透射光数据的分析。


2.网络架构

  网络架构如图1所示。它由一个收缩路径(左侧)和一个扩展路径(右侧)组成。收缩路径遵循卷积网络的典型结构。它包括重复应用两个3x3卷积(未填充的卷积),每个卷积后都有一个整流线性单元(ReLU)和一个2x2的最大池化操作,跨度为2的下采样。在每个下采样步骤中,我们将特征通道的数量增加一倍。扩张路径中的每一步都包括对特征图的上采样,然后进行2x2卷积(“上卷积”),将特征通道的数量减半,与收缩路径中相应裁剪的特征图进行串联,并进行两次3x3卷积,每次都有一个ReLU跟随。由于每次卷积都会损失边界像素,因此裁剪是必要的。在最后一层,一个1x1的卷积被用来将每个64分量的特征向量映射到所需的类的数量。该网络总共有23个卷积层。

  为了实现输出分割图的无缝拼接(见图2),重要的是要选择输入拼接的大小,使所有2x2的最大拼接操作都应用于具有均匀X和Y大小的层。


3 训练

  用Caffe[6]的随机梯度下降实现的输入图像和它们相应的分割图来训练网络。由于未经填充的卷积,输出的图像比输入的图像要小,边界宽度不变。为了最大限度地减少开销并最大限度地利用GPU内存,我们倾向于使用大的输入瓦片而不是大的批处理尺寸,因此将批处理减少到一张图像。因此,我们使用一个高的动量(0.99),这样,大量先前看到的训练样本决定了当前优化步骤中的更新。

  能量函数是由最终特征图上的像素级soft-max与交叉熵损失函数结合计算的。软最大值定义为 p k ( x ) = exp ⁡ ( a k ( x ) ) / ( ∑ k ′ = 1 K exp ⁡ ( a k ′ ( x ) ) ) {p_k}(x){\rm{ }} = {\rm{ }}\exp ({a_k}(x))/\left( {\sum\nolimits_{k' = 1}^K {\exp \left( {{a_{k'}}(x)} \right)} } \right) pk(x)=exp(ak(x))/(k=1Kexp(ak(x))) 其中 a k ( x ) a_k(x) ak(x)表示像素位置 x ∈ Ω x∈Ω xΩ处的特征通道 k k k的激活, Ω ⊂ Z 2 Ω⊂Z^2 ΩZ2 K K K是类的数量, p k ( x ) p_k(x) pk(x)是近似的最大函数。即对于具有最大激活度 a k ( x ) a_k(x) ak(x)的k, p k ( x ) ≈ 1 p_k(x)≈1 pk(x)1,对于所有其他 k k k p k ( x ) ≈ 0 p_k(x)≈0 pk(x)0。然后,交叉熵在每个位置对 p ℓ ( x ) ( x ) p_{\ell(x)}(x) p(x)(x)偏离1的情况进行惩罚,使用的是

E = ∑ x ∈ Ω w ( x ) log ⁡ ( p ℓ ( x ) ( x ) ) (1) E{\rm{ }} = \sum\limits_{x \in \Omega } {w(x){\rm{ }}\log \left( {{p_{\ell (x)}}(x)} \right)} \tag{1} E=xΩw(x)log(p(x)(x))(1)

其中 ℓ : Ω → 1 , . . . , K \ell :Ω→{1,. . . , K} Ω1...,K是每个像素的真实标签, w : Ω → R w : Ω → R w:ΩR是一个权重图,我们引入它是为了在训练中给予某些像素更多的重要性。
我们预先计算每个地面真实分割的权重图,以补偿训练数据集中某类像素的不同频率,并迫使网络学习我们在接触的单元之间引入的小分离边界(见图3c和d)。

  分离边界是使用形态学操作计算出来的。然后,权重图被计算为
w ( x ) = w c ( x ) + w 0 ⋅ e x p ( − ( d 1 ( x ) + d 2 ( x ) ) 2 2 σ 2 ) (2) w(x) = w_c(x) + w_0 · exp\left(-{{\left(d_1(x)+d_2(x)\right)^2} \over 2σ^2}\right) \tag{2} w(x)=wc(x)+w0exp(2σ2(d1(x)+d2(x))2)(2)

  其中, w c : Ω → R w_c : Ω → R wc:ΩR是平衡类别频率的权重图, d 1 : Ω → R d_1 : Ω → R d1:ΩR表示到最近的单元格边界的距离, d 2 : Ω → R d_2 : Ω → R d2:ΩR表示到第二个最近的单元格边界的距离。在我们的实验中,我们设定 w 0 = 10 w_0=10 w0=10 σ ≈ 5 σ≈5 σ5像素。

  在有许多卷积层和不同路径的深度网络中,良好的权重初始化是非常重要的。否则,网络的某些部分可能会给出过多的激活,而其他部分则没有贡献。理想情况下,初始权重应该被调整为使网络中的每个特征图都有近似的单位方差。对于具有我们架构的网络(交替卷积层和ReLU层),这可以通过从标准偏差为 2 / N \sqrt {2/N} 2/N 的高斯分布中提取初始权重来实现,其中 N N N表示一个神经元的传入节点数[5]。例如,对于3x3卷积和前一层的64个特征通道, N = 9 ⋅ 64 = 576 N=9·64=576 N=964=576


3.1 数据增强

  当只有少数训练样本可用时,数据增强对于教给网络所需的不变性和鲁棒性是至关重要的。在显微镜图像的情况下,我们主要需要移位和旋转不变性,以及对变形和灰度值变化的稳健性。特别是训练样本的随机弹性变形似乎是用很少的注释图像来训练分割网络的关键概念。我们在一个粗略的3乘3的网格上使用随机位移向量产生平滑的变形。位移是从具有10个像素标准偏差的高斯分布中采样的。然后使用双三次插值计算每个像素的位移。在收缩路径的末尾,剔除层进一步进行隐式数据增强。


4 实验

  我们在三个不同的分割任务中展示了u-net的应用。第一个任务是对电子显微镜记录中的神经元结构进行分割。图2显示了一个数据集和我们获得的分割的例子。我们提供完整的结果作为补充材料。该数据集是由2012年ISBI启动的EM分割挑战[14]提供的,目前仍在接受新的贡献。训练数据是一组30张图像(512x512像素),来自果蝇一龄幼虫腹侧神经索(VNC)的连续切片透射电子显微镜。每张图像都有相应的完全注释的细胞(白色)和膜(黑色)的地面真相分割图。测试集是公开的,但其分割图是保密的。通过向组织者发送预测的膜概率图,可以获得评估。评估是通过对地图进行10个不同级别的阈值处理和计算 “翘曲误差”、"Rand误差 "和 "像素误差 "来进行的[14]。

  u-net(对输入数据的7个旋转版本进行平均)在没有任何进一步的预处理或后处理的情况下,实现了0.0003529的扭曲误差(新的最佳得分,见表1)和0.0382的兰德误差。

  这比Ciresan等人[1]的滑动窗口卷积网络结果要好得多,后者的最佳提交结果的翘曲误差为0.000420,rand误差为0.0504。就rand误差而言,唯一表现较好的是

表1。EM分割挑战赛[14](2015年3月6日)的排名,按扭曲误差排序。

【U-Net2015】U-Net: Convolutional Networks for Biomedical Image Segmentation mage Segmentation_第4张图片

【U-Net2015】U-Net: Convolutional Networks for Biomedical Image Segmentation mage Segmentation_第5张图片

图4. ISBI细胞追踪挑战的结果。(a) "PhC-U373 "数据集的部分输入图像。(b) 分割结果(青色面具)与人工地面实况(黄色边界) (c) "DIC-HeLa "数据集的输入图像。(d) 分割结果(随机彩色遮罩)与人工地面实况(黄色边界)。
表2. 2015年ISBI细胞追踪挑战赛的分割结果(IOU)。

【U-Net2015】U-Net: Convolutional Networks for Biomedical Image Segmentation mage Segmentation_第6张图片

  在这个数据集上的算法使用了高度针对数据集的后处理方法【该算法的作者提交了78种不同的解决方案来实现这一结果。】,应用于Ciresan等人[1]的概率图。

  我们还将u-net应用于光镜图像中的细胞分割任务。这个分割任务是2014年和2015年ISBI细胞追踪挑战的一部分[10,13]。第一个数据集 “PhC-U373”【该算法的作者提交了78种不同的解决方案来实现这一结果。】包含由相差显微镜记录的聚丙烯酰胺基质上的胶质母细胞U373细胞(见图4a,b和补充材料)。它包含35张部分注释的训练图像。在这里,我们实现了92%的平均IOU(“相交于联合”),这明显优于第二好的算法的83%(见表2)。第二个数据集 "DIC-HeLa "【该算法的作者提交了78种不同的解决方案来实现这一结果。】是用微分干涉对比(DIC)显微镜记录的平板玻璃上的HeLa细胞(见图3,图4c,d和补充材料)。它包含20张部分注释的训练图像。在这里,我们实现了77.5%的平均IOU,明显优于第二好的算法的46%。


5 结论

  u-net结构在非常不同的生物医学分割应用中取得了非常好的性能。得益于弹性定义的数据增强,它只需要很少的注释图像,并且在NVidia Titan GPU(6GB)上有非常合理的训练时间,只有10小时。我们提供了基于Caffe[6]的完整实现和训练后的网络4。我们确信,u-net架构可以很容易地应用于更多的任务。

  鸣谢 本研究得到了德国联邦和州政府的卓越计划(EXC 294)和BMBF(Fkz 0316185B)的支持。


References

  1. Ciresan, D.C., Gambardella, L.M., Giusti, A., Schmidhuber, J.: Deep neural networks segment neuronal membranes in electron microscopy images. In: NIPS. pp.2852–2860 (2012)

  2. Dosovitskiy, A., Springenberg, J.T., Riedmiller, M., Brox, T.: Discriminative unsupervised feature learning with convolutional neural networks. In: NIPS (2014)

  3. Girshick, R., Donahue, J., Darrell, T., Malik, J.: Rich feature hierarchies for accurate object detection and semantic segmentation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2014)

  4. Hariharan, B., Arbelez, P., Girshick, R., Malik, J.: Hypercolumns for object segmentation and fine-grained localization (2014), arXiv:1411.5752 [cs.CV]

  5. He, K., Zhang, X., Ren, S., Sun, J.: Delving deep into rectifiers: Surpassing humanlevel performance on imagenet classification (2015), arXiv:1502.01852 [cs.CV]

  6. Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadarrama, S., Darrell, T.: Caffe: Convolutional architecture for fast feature embedding (2014), arXiv:1408.5093 [cs.CV]

  7. Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: NIPS. pp. 1106–1114 (2012)

  8. LeCun, Y., Boser, B., Denker, J.S., Henderson, D., Howard, R.E., Hubbard, W.,Jackel, L.D.: Backpropagation applied to handwritten zip code recognition. Neural Computation 1(4), 541–551 (1989)

  9. Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation (2014), arXiv:1411.4038 [cs.CV]

  10. Maska, M., (…), de Solorzano, C.O.: A benchmark for comparison of cell tracking algorithms. Bioinformatics 30, 1609–1617 (2014)

  11. Seyedhosseini, M., Sajjadi, M., Tasdizen, T.: Image segmentation with cascaded hierarchical models and logistic disjunctive normal networks. In: Computer Vision(ICCV), 2013 IEEE International Conference on. pp. 2168–2175 (2013)

  12. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scaleimage recognition (2014), arXiv:1409.1556 [cs.CV]

  13. WWW: Web page of the cell tracking challenge, http://www.codesolorzano.com/celltrackingchallenge/Cell_Tracking_Challenge/Welcome.html

  14. WWW: Web page of the em segmentation challenge, http://brainiac2.mit.edu/isbi_challenge/

你可能感兴趣的:(深度学习,caffe,计算机视觉)