[论文阅读笔记]U-Net: Convolutional Networks for Biomedical Image Segmentation

摘要

  大意是说 ,普遍认为深度网络需要大量已标签数据集,这个网络(U-Net)可以依靠数据增强来事先少量数据集训练网络。而且,这个网络训练得很快,运用GPU运行,512*512的图片只需要不用一秒即可。
  该网络属于端对端网络,即输入图片,输出分割开的图片。赢得了2015年ISBI竞赛。

介绍

  卷积神经网络已经存在很久了,但因为缺少可用的训练数据集而没被大量使用,直到ImageNet数据集(百万张图片)的出现。
  传统的卷积网络的目标是分类,即对每个图片给予一个标签。但是对于很多视觉任务,特别是医疗图像方向,目标应该包括定位,以及对每个像素块给予一个标签。而且,医疗图像的训练集都不大。
  大概也就介绍了一些传统的图像分割算法,如滑动窗口,以及U-Net借鉴的前身FCN之类的,并为比较难的分割的情况(彼此接触的同类物体)提议了一种方法。

网络架构

[论文阅读笔记]U-Net: Convolutional Networks for Biomedical Image Segmentation_第1张图片

  网络架构就如上图,可以描述为由收缩路径(左边)和扩张路径组成。收缩路径和传统的卷积网络一样,由卷积核尺寸为 33 3 ∗ 3 的无填充卷积,每次卷积后都经过ReLU函数作用,以及尺寸为 22 2 ∗ 2 ,步距为2的最大池组成。这个最大池化就是下采样的过程,下采样后就将channels变为2倍。扩张路径 22 2 ∗ 2 的上卷积,上卷积的output channels为原先的一半,再与对应的特征图(裁剪后)串联起来(得到和原先一样大小的channels),再经过两个尺寸为 33 3 ∗ 3 的卷积及经过ReLU作用。相应的裁剪特征图是必须的,因为在我们卷积的过程中会有边界像素的丢失。在最后一层通过卷积核大小为 11 1 ∗ 1 的卷积作用得到想要的目标种类。在这个网络中,有23个卷积层。
  为了保证输出分段映射的无缝拼接,需要谨慎的选择输入图片的尺寸,以保证所有的Max Pooling操作应用于有偶数的x-size和偶数的y-size的图层。

训练

  该论文是基于Caffe,使用动量为0.99的SGD,损失函数为交叉熵,训练输入图片与它们对应的分割图片(输入图片和最后的图片的尺寸不一样)。该训练模型和传统的训练模型没什么不同,都是注意权重初始化随机,数据增强等。

你可能感兴趣的:(论文,读书笔记)