UNet:卷积网络用于医学图像分割

摘要:成功的网络需要数以千计个被标注的训练样例,这是广为接受的。在这篇论文中,我们提出了一个网络,以及一种依赖于数据增强的加深使用达到对标注样本的使用更加有效的训练策略。该架构包括一个收缩的路径以捕捉邻近关系,以及一个对称的扩张路径使其精确的定位。我们展示了该网络能够基于端到端的少量图片被训练,并且在ISBI挑战中电子显微镜堆栈下的神经元结构分割中优于以往的方法(如滑动窗口的卷积网络)。使用投射光学显微镜的图像(相位对比与DIC)训练相同的网络,我们以巨大的优势赢得了ISBI的细胞跟踪挑战2015的该类别。此外,该网络十分迅速,在一张GPU上分割一个512x512的图像花费少于1秒的时间。完整的实现(基于Caffe)以及已训练的网络在http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net可以使用。

一、介绍
  深度卷积网络在视觉识别任务中取得了高水准的表现,其成功受制于可用的训练集与精心设计的网络的尺寸。卷积网络的典型应用是分类任务,其输出是单独的分类标签。然而,视觉任务,尤其生物学图像处理期望输出包含位置信息,例如类标签分配给每个像素。Ciresan等人训练使用滑动窗的网络。然而,该网络由于分别为每个块运行,速度慢,此外,局部准确性与全局状态信息存在权衡。
  本文建立了更加高雅的架构,称为全卷积网络【fully convolutional network】。其使用少量图像训练,并取得精细的分割。主要思想是使用连续层补充通常的收缩网络,并用上采样操作代替池化操作,从而增加了输出的分辨率。考虑局部,高分辨率特征与上采样输出联结。
  架构中重要的修改是上采样使用更大数量的特征通道,这允许网络将邻域状态信息传播到更高分辨率层。
二、网络架构
  神经网络架构由图1说明。其包含一个收缩的路径(左侧)与一个扩张的路径(右侧)。收缩路径与典型的卷积网络架构相同。其由重复应用的两个3x3的卷积,一个线性整流单元(ReLU)与一个使用步进为2的2x2的最大池化操作以下采样。在每一步下采样中,我们将特征通道的数量加倍。在扩张路径的每一步,其包含了一个特征图的一个通过2x2卷积的上采样,特征通道的减半,一个收缩路径中对应特征图的裁剪串联,两个3x3的卷积,并继以ReLU。由于在每次卷积中边缘像素的丢失,这个剪切是必要的。在最后一层中使用1x1的卷积以映射64个组成的特征向量到期望的类别编号。该网络一共有23个卷积层。

UNet:卷积网络用于医学图像分割_第1张图片
  图1:U-Net网络架构(最低分辨率为32x32的样例)。每一个蓝色方块对应一个多通道特征图。特征的数量取决于顶层。x与y的尺寸在图像左下角提供。白色的方块代表复制的特征图。箭头决定了不同的操作。

  为了允许输出的分割映射完整的平铺(如图2),必须选择一个输入平铺的大小,以便所有的2x2最大池化操作均匀的应用到具有x尺寸与y尺寸的层。

UNet:卷积网络用于医学图像分割_第2张图片
  图2:任意大图像的完整分割的重叠平铺策略(这是EM堆栈中神经元结构的分割)。黄色区域的分割预测,需要蓝色区域内的图像数据作为输入。输入图像没有的部分通过镜面投射预测补全。

三、训练
  输入图像与相应的分割映射被用来训练网络,通过随机梯度下降(SGD,stochastic gradient descent)实现(Caffe)。因为无填充卷积,输出图像比输出图像小一个固定的边框宽度。为了最小化总开销,令GPU内存的使用最大化,我们倾向于大的输入块而不是大的批样本尺寸,因此减少了一个图像的批样本。因此我们使用了大的冲量(0.99),故先前看到的大量训练样本决定了优化过程中的更新。
  能量函数的计算采用最终的特征图的像素级别的softmax与交叉熵损失函数相结合。其中soft-max定义为 p k ( x ) = e x p ( a k ( x ) ) / ( ∑ k ′ = 1 K e x p ( a k ′ ( x ) ) ) p_{k}(\bm{x}) = exp(a_{k}(\bm{x})) / (\sum_{k' = 1}^K exp(a_{k}'(\bm{x}))) pk(x)=exp(ak(x))/(k=1Kexp(ak(x))),其中 a k ( x ) ak(\bm{x}) ak(x)代表 k k k特征通道在像素位置 x ∈ Ω , Ω ∈ Z 2 \bm{x}\inΩ, Ω\in \bm{Z}^2 xΩ,ΩZ2的活跃值, K K K时类别的数量,以及 p k ( x ) p_{k}(\bm{x}) pk(x)时最大可能函数。交叉熵惩罚每个位置上最大可能函数的偏差,形如 E = ∑ x ∈ Ω w ( x ) l o g ( p l ( x ) ( x ) ) E = \sum_{\bm{x} \in Ω} w(\bm{x})log(p_{l(\bm{x})}(\bm{x})) E=xΩw(x)log(pl(x)(x))其中 l : Ω → { 1 , . . . , K } l:Ω\rightarrow \{1, ..., K\} l:Ω{1,...,K}是每一个像素的真实标签,而 w : Ω → R w:Ω\rightarrow R w:ΩR是一个权重的映射,以赋予某些像素在训练过程中的重要性。
  为分割真值预计算权重映射以补偿训练集确切的类中不同的像素频率,并加强网络学习小而独立的边缘,如图3的接触细胞。
UNet:卷积网络用于医学图像分割_第3张图片
  图3:玻片中使用微分干涉对比【differential interference contrast,DIC】显微镜观察到的海拉细胞。(a)原图。(b)分割真值。不同的颜色代表不同的细胞体。(c)生成的分割遮罩。(d)像素级损失权重映射以加强网络学习边缘像素。
  独立边缘使用形态学操作计算。权重映射计算形如 w ( x ) = w c ( x ) + w 0 e x p { − ( d 1 ( x ) + d 2 ( x ) ) 2 / 2 σ 2 } w(\bm{x}) = w_c(\bm{x}) + w_0exp\{-(d_1(\bm{x}) + d_2(\bm{x}))^2/2\sigma^2\} w(x)=wc(x)+w0exp{(d1(x)+d2(x))2/2σ2}其中 w c : Ω → R w_c:Ω\rightarrow R wc:ΩR是平衡类频率的权重映射, d 1 : Ω → R d_1:Ω\rightarrow R d1:ΩR定义了边缘到最邻近细胞的距离, d 2 : Ω → R d_2:Ω\rightarrow R d2:ΩR定义了边缘到第二邻近细胞的距离。在实验中,设置 w 0 = 10 , σ ≈ 5 w_0 = 10, \sigma \approx 5 w0=10,σ5
  多卷积层与多路径的深度网络中,较优的权重初始化是尤其重要的。此外,网络的某一部分可能过多的激活,而另一部分没有贡献。理想中的初始化权重应该调整为网络的所有特征图接近单位方差。本文架构的网络(卷积与线性整流层交互)通过从标准差为 ( N / 2 ) 1 / 2 (N/2)^{1/2} (N/2)1/2的高斯分布初始化权重达到,其中 N N N表示一个神经元的输入节点。例如前一层的3x3卷积与64特征通道,则该层有 N = 9 ⋅ 64 = 576 N = 9 · 64 = 576 N=964=576
3.1 数据增强
  数据增强有益于网络的期望不变性与鲁棒性。对图像变形、灰度值变更以保证网络的偏移与旋转不变性。


四、实验
UNet:卷积网络用于医学图像分割_第4张图片
  表1:EM分割挑战的排名,由warping error决定。
UNet:卷积网络用于医学图像分割_第5张图片
  图4:ISBI细胞跟踪挑战结果。(a)Phc-U373数据集的一张输入图像的部分。(b)分割结果(青色遮罩)与人工真值(黄色边缘)。(c)DIC-Hela数据集的输入图像。(d)分割结果(随机颜色遮罩)与人工真值(黄色边缘)。

UNet:卷积网络用于医学图像分割_第6张图片
  表2:ISBI细胞追踪挑战2015的分割结果(交并比【Intersection over Union,IOU】)。


五、结论
  UNet架构在多种生物学分割应用中取得了很好的表现。使用数据增强的弹性形变,其需要少量标注图像与合理的训练时间,即Nvidia Titan GPU(6GB)上10小时。

你可能感兴趣的:(图像分割)