U-net详解

1.解决问题

        Ciresan提出的滑动窗口网络存在很多缺陷,首先,它非常慢,因为网络必须为每个patch单独运行,而且由于重叠的patch,会有很多冗余。其次,在定位精度和上下文的使用之间存在一种权衡。更大的patch需要更多的最大池化层,从而降低了定位精度,而小的patch只允许网络看到很少的上下文。 

2.创新点

        作者建立了一个体系结构,即所谓的“全卷积网络”[9]。并且修改和扩展了这种体系结构,使它可以在很少的训练图像下工作,并产生更精确的分割;参见图1。网络的主要思想是通过连续的层来补充通常的收缩网络,其中池化运算被上采样运算所取代。因此,这些层增加了输出的分辨率。为了定位,将从收缩路径上的高分辨率特征与上采样输出相结合。然后,一个连续的卷积层就可以学会根据这些信息来组装一个更精确的输出。 

U-net详解_第1张图片

        1.在体系结构中,一个重要的改进是,在上采样部分,有大量的特征通道,这允许网络将上下文信息传播到更高分辨率的层。因此,膨胀路径与收缩路径或多或少是对称的,并产生一个u形结构。该网络没有任何完全连接的层,并且只使用每个卷积的有效部分,即分割映射只包含像素,其中完整的上下文在输入图像中可用。该策略允许通过重叠瓷砖策略对任意大的图像进行无缝分割(见图2)。为了预测图像边界区域中的像素,通过镜像输入图像来推断缺失的上下文。这种平铺策略对于将网络应用于大型图像很重要,否则分辨率就会受到GPU内存的限制。

        2.通过对可用的训练图像应用弹性变形来使用过度的数据增强。这允许网络学习对这种变形的不变性,而不需要在带注释的图像语料库中看到这些转换。已解决训练数据少的问题。

        3.使用加权损失,在接触单元之间分离背景标签在损失函数中获得很大的权重。

U-net详解_第2张图片

 4.网络结构

        网络架构如图1所示。它由收缩路径(左侧)和膨胀路径(右侧)组成。收缩路径遵循卷积网络的典型架构。它包括重复应用两个3x3卷积(无填充卷积),每个卷积随后是ReLU和一个2x2最大池化操作,步幅为2用于下采样。在每一个降采样步骤中,都会将特征通道的数量增加一倍。扩展路径中的每一步都包括特征图的上采样,然后是2x2卷积(“上卷积”),将特征通道的数量减半,与收缩路径相应裁剪的特征图连接,以及两个3x3卷积,每个卷积都是一个ReLU。由于在每次卷积中都丢失边界像素,裁剪是必要的。在最后一层,使用1x1的卷积将每个64个分量的特征向量映射到所需的类的数量。该网络总共有23个卷积层。 

5.训练

        训练时使用随机梯度下降,使用一个高动量(0.99),训练时使用大型输入图像而不是大批量。

        损失函数:

         预先计算每个真实分割的权值图,以补偿训练数据集中某一类像素的不同频率,并迫使网络学习我们在接触单元之间引入的小分离边界(见图3c和d)。

        分离边界采用形态学操作进行计算。权重图计算为:

         其中,wc:Ω→R是平衡类频率的权重映射,d1:Ω→R表示到最近单元格(cell)边界的距离,d2:Ω→R表示到第二个最近单元格(cell)边界的距离。在我们的实验中,我们设置了w0=10和σ≈5像素。

        网络初始化:

        从一个标准差为p2/N的高斯分布中提取初始权值来实现,其中N表示一个神经元[5]的输入节点的数量。例如,对于前一层N=9·64=576中的3x3卷积和64个特征通道。

U-net详解_第3张图片

         数据增强:

        论文通过通过移位和旋转不变性,以及对变形和灰度值变化的鲁棒性。在一个粗糙的3*3网格上使用随机位移向量生成平滑变形。这些位移是从一个具有10个像素标准差的高斯分布中采样的。然后使用双边插值法计算每像素的位移。在收缩路径末端的dropout层执行进一步的隐式数据增强

 6.实验

        U-net详解_第4张图片 

U-net详解_第5张图片 

U-net详解_第6张图片 

 

你可能感兴趣的:(图像分割,人工智能,深度学习,计算机视觉,图像分割)