小白读论文-U-Net(2015年)

U-Net论文内容

  • 摘要
  • 1.介绍
    • 三个挑战

论文题目:U-Net: Convolutional Networks for Biomedical Image Segmentation
论文地址:https://arxiv.org/pdf/1505.04597v1.pdf
代码地址:pytorch代码https://github.com/LeeJunHyun/Image_Segmentation
论文翻译与解析:https://blog.csdn.net/mieleizhi0522/article/details/82025509
https://blog.csdn.net/qq_40520596/article/details/104465462

摘要

人们普遍认为,深度网络的成功训练需要数千个带注释的训练样本。在本文中,我们提出了一种网络和训练策略,**它依赖于数据增强的强大使用,以更有效地使用可用的注释样本。该体系结构由捕获上下文的收缩路径和实现精确定位的对称扩展路径组成。**我们表明,这种网络可以从很少的图像中进行端到端的训练,并且在电子显微镜堆栈中神经元结构分割的ISBI挑战中优于现有的最佳方法(滑动窗口卷积网络)。使用在透射光显微镜图像(相位对比和弥散性血管内凝血)上训练的相同网络,我们在这些类别中以较大优势赢得了2015年ISBI细胞追踪挑战。而且,网络快。在最近的图形处理器上分割512x512图像不到一秒钟。

优点总结:
1.依赖于强大的数据增强,可使用较少样本进行训练
2.改进了FCN,把扩展路径完善了很多,多通道卷积与类似FPN(特征金字塔网络)的结构相结合。
3.网络速度快

1.介绍

在本文构建了一个全卷积网络,该网络可以用很少的训练图像,产生更精准的分割。如下图所示的结构。
小白读论文-U-Net(2015年)_第1张图片
U-net架构(例如最低分辨率下的32x32像素)。每个蓝框对应一个多通道要素图。通道的数量显示在盒子的顶部。x-y尺寸位于盒子的左下边缘。白色方框代表复制的要素地图。箭头表示不同的操作。

含义解释:
U型的左面称为收缩路径(contracting path),主要是做下采样的操作,将feature map减半,由2个3×3卷积、接一个ReLU、一个max Pooling(步长为2)的池化组成,该结构主要是将feature map减半,同时通道数加倍。从输入512×512的网络开始,到30×30。
U型右边称为扩展路径(expansive path),主要是用来将feature map加倍,每一个小组块的feature map,都在加倍,同时通道数也在减半。每一个小组块由2个3×3卷积一个上采样组成。最终得到的feature map为388×388
最后copy and crop,将两边的feature map合并。由于两边的得到的feature map是不同的,因此U-Net又进行了一个操作,为了预测图像边界区域的像素,通过镜像输入图像来外推缺失的上下文。这种平铺策略对于将网络应用于大图像非常重要,因为否则分辨率会受到图形处理器内存的限制。

为了保证输出分段映射的无缝拼接,需要谨慎的选择输入图片的尺寸,以保证所有的Max Pooling操作应用于有偶数的x-size和偶数的y-size的图层。

三个挑战

该文主要应对三个挑战:
② 挑战一:对于尺寸较大的图像,GPU限制

    图2 预测黄色区域的分割,需要蓝色区域内的图像数据作为输入,其中缺少的输入数据是由镜像得出

小白读论文-U-Net(2015年)_第2张图片

    首先,数据集我们的原始图像的尺寸都是 512×512的。为了能更好的处理图像的边界像素,U-Net使用了镜像操作(Overlay-tile Strategy)来解决该问题。
   镜像操作即是给输入图像加入一个对称的边(图2),那么边的宽度是多少呢?一个比较好的策略是通过感受野确定。
     因为有效卷积是会降低Feature Map分辨率的,但是我们希望 [公式] 的图像的边界点能够保留到最后一层Feature Map。所以我们需要通过加边的操作增加图像的分辨率,增加的尺寸即是感受野的大小,也就是说每条边界增加感受野的一半作为镜像边。
     该网络 没有FC层,且全程使用Valid来进行卷积,这样可以保证分割的结果都是基于获得完整上下文特征后得到的,因此输入输出的图像尺寸不太一样。
    这种策略允许无缝分割任意大的图像(适用于尺寸较大的图像),为了预测图像的边界区域中的像素,通过镜像输入图像来外推丢失的上下文。
   这种平铺策略对于将网络应用于大图像很重要,否则分辨率将受到GPU内存的限制,这个策略基于GPU内存不够的情况下所提出的。

这里可能会有疑问:
1.为什么输入的图像大小为572?摘自
U-Net可以看做一个Encoder-Decoder模型,其中压缩路径对应的是编码器,32×32×512可以看做特征向量。那么特征向量两头的值需要通过加边的方式计算得到,加的边的大小便是其感受野的一半(另一半在原图中)。原文中给出感受野的大小是60,也就是要计算左侧的特征值需要添加一个30的镜像映射,同理右侧的特征值也需要添加一个大小为30的镜像映射。由于原图的大小是512,所以输入扩充到了512+30+30=572。
2.输入图像为572,输出为388,那么这两个不同尺寸怎么合并?

② 挑战二:数据集可用数据量少

   我们通过对可用的训练图像应用弹性变形来使用过量的数据增强,这允许网络学习这种变形的不变性,而不需要在注释的图像语料库中看到这些变换。这在生物医学分割中尤其重要,因为变形曾经是组织中最常见的变化,并且可以有效地模拟真实的变形。 Dosovitskiy等人已经证明了在无监督特征学习的范围内学习不变性的数据增加的价值.

③ 挑战三:相同物体的间隙不容易分割出来:采用加权的策略

   许多细胞分割任务中的另一个挑战是分离同一类的接触物体,本文使用加权损失,其中接触单元之间的分离背景标签在损失函数中获得大的权重。以此方法提升对于互相接触的相同物体之间缝隙的分割效果.

你可能感兴趣的:(#,语义分割,pytorch,深度学习,神经网络)