U-Net:Convolutional Networks for Biomedical Image Segmentaion 总结


摘要

基于数据增强和从分利用标注样本,提出了一个网络结构和训练策略。该体系结构由两部分组成:

  1. 使用contracting path捕获上下文信息
  2. 使用均衡的expanding path精确定位

网络速度快,在单片GPU上处理一张512x512的图像最多需要一秒。


引言

在视觉识别任务中,深度卷积网络成功的原因在于大的训练数据集和网络结构。卷积网络的典型应用是分类,然而对于像医学图像处理这样的任务,需要精确的进行定位——一个类别标签应该被分给每个像素。同时海量数据集在生物医学上是难以获得的。


U-Net:Convolutional Networks for Biomedical Image Segmentaion 总结_第1张图片
图1.U-Net体系结构:蓝条代表特征图,通道数在对应条的顶部,特征图的尺寸在对应条的左下方。白条对应被直接复制的特征图。不同的箭头代表不同的功能。

Ciresan在滑动窗口中设置网络,通过在像素周围提供一个局部区域(patch)来预测每个像素的类标签。该方法有两个缺点:

  1. 因为每个像素会和周围的像素重叠,所以会产生冗余计算,导致效率很低。
  2. 在应用上下文和定位精度之间存在取舍,越大的patchs需要更多的max-pooling层,这会降低分割精度,而小的patchs只能由很小的视野。

为了实现定位,我们将来自contracting path的高分辨率特征图和上采样相结合(应该就是结构图中的灰色箭头吧),接着使用一个连续的卷积就可以学到更精确的输出。通过使用特性通道将上下文信息传到更高的分辨率层,结果contracting path和expensive path相对称,所以产生了U结构(contracting path应该就是图中的枣红色箭头,expansive path应该就是图中的绿色箭头吧)。

因为数据较少的原因,我们通过弹性形变将可用的数据进行数据增强,这使得网络可以学到这种变形的不变性,这在生物医学图像中是非常重要的,因为组织的变形和变异在实际中是很常见的,这就使得现实的变形可以被有效的模拟。

细胞分割的另一个挑战是对同一类可触摸对象的分离(the separation of touching objects of the same class?)。为此,我们建议使用加权损失,在损失函数中,相接触的细胞之间的背景分离标签会获得一个较大的权重。


网络体系结构

如图1,它由一条contracting path(左边)和一条expansive path(右边)组成。
contracting path遵循一个卷积网络的典型结构:两个3x3卷积(不填充)的重复应用,每一个卷积后都有一个纠正的线性单元(ReLU)和stride=2的2x2的max pooling。在每次下采样中将特征图的通道数加倍。
expansive path中的每一步都包含一个特征图的上采样,然后是一个2x2的上卷积将特征通道的数目减半(因为有来自contracting path的相应剪裁特征图的连接),以及两个3x3的卷积,每一个卷积后有一个ReLU函数。在最后一层,使用1x1的卷积将每个64分量的特征向量映射到所需的类数中。
整个网络有23层。


训练

输入的图像及其相应的分割图用于训练网络,同时使用了随机梯度下降进行参数更新。由于卷积时没有进行填充,所以输出图像比输入图像的边界宽度要小。我们倾向于在大批量的情况下使用较大的输入切片,因此将图片批量减少到单个图像。我们使用了一个较高的动量(0.99),这样可以使用大量先前所见的样本决定当前优化步骤的更新。
结合最终的特征图和交叉熵损失函数,在其上通过像素级的Softmax计算energy function(能量函数?)。


数据增强

我们利用随机位移向量在粗糙的3x3的网格上生成平滑的变形。位移是使用具有10个像素标准差的高斯分布采样得到的,然后使用双三次插值计算每个像素的位移。在contracting path的末尾使用Drop-out层可以隐式地进一步进行数据增强。

你可能感兴趣的:(U-Net:Convolutional Networks for Biomedical Image Segmentaion 总结)