U-Net详解:为什么它适合做医学图像分割?(基于tf-Kersa复现代码)

1、U-net

U-Net是一篇基本结构非常好的论文,主要是针对生物医学图片的分割。这种“对称”的结构也是神经网络中比较少见的,但如果把整个网络拉直,这样就和其他语义分割网络类似了。

2、特点介绍

U-Net详解:为什么它适合做医学图像分割?(基于tf-Kersa复现代码)_第1张图片

首先,我们先来看一下U-Net的整体结构,可以看到,它并不是完全对称的。UNet原文中提到,输入图像是512x512大小的,那为什么图中第一层的宽高却是572呢?这样做有什么好处?

Over-tile策略

Unet使用一种称为overlap-tile的的策略,使得任意大小输入的图片都可以获得一个无缝分割。over-tile策略如下图所示:

U-Net详解:为什么它适合做医学图像分割?(基于tf-Kersa复现代码)_第2张图片

该策略的思想是:对图像的某一块像素点(黄框内部分)进行预测时,需要该图像块周围的像素点(蓝色框内)提供上下文信息(context),以获得更准确的预测。

这样的策略会带来一个问题,图像边界的图像块没有周围像素,如果直接补0,那就和普通卷积网络没什么区别了。而作者针对细胞图像提出了镜像扩充。那么第一层pad多少像素值合适?取决于卷积的次数和最终的结果,作者设计U-Net时,使得下采样与上采样merge时,两个特征层大小一样就可以了。但在设计时无法完全对称,所以还是会有对下采样部分的特征层裁剪的操作,这样才能保证上下采样的特征层宽高是一样的。

而个人觉得,这么做也有一定的限制。因为目前看来,也就只有医学中的细胞图像才适合边缘镜像策略。如果换做是正常的VOC数据集,边缘镜像后,会与真实图像有较大出入。而细胞图像则不会。所以这也是为什么,UNet适合做医学图像的分割,而在其他分割领域成绩不是那么理想的缘故。

弹性变形(Elastic Distortion)

这是一种数据增强的方式,具体表现就是画面变得扭曲。具体原理可以看这篇文章,讲的比较详细。这种数据增强方式也是比较适合用在医疗图像领域,尤其是细胞图像,大大的提高了数据的可用性。但不太合适用在刚性物体上,如VOC等数据集。

加权损失

为了使某些像素点更加重要,作者在公式中引入了 w ( x ) w(x) w(x)。我们对每一张标注图像预计算了一个权重图,来补偿训练集中每类像素的不同频率,使网络更注重学习相互接触的细胞之间的小的分割边界。权重图计算公式如下:
w ( x ) = w c ( x ) + w 0 ∗ e x p ( − ( d 1 ( x ) + d 2 ( x ) ) 2 2 σ 2 ) w(x) = w_c(x) + w_0*exp(-\frac{(d_1(x)+d_2(x))^2}{2\sigma^2}) w(x)=wc(x)+w0exp(2σ2(d1(x)+d2(x))2)
其中 w c w_c wc是用于平衡类别频率的权重图, d 1 d_1 d1代表到最近细胞的边界的距离, d 2 代 d_2代 d2表到第二近的细胞的边界的距离。基于经验设定为 w 0 = 10 w_0=10 w0=10 σ ≈ 5 \sigma≈5 σ5像素。这种loss也是在UNet里独有的,在其他网络是不会用的。

3、总结

UNet的诞生提高了语义分割在医学图像领域的准确率,尤其是提出的U型结构,其最重要是就是跨层连接,将底层特征和高层特征进行融合,这在FCN等一众之前的语义分割网络中是不常见的,这个思想也被引用在GAN中。因此对后续发展最有帮助的还是U型结构。

4、实现代码

  • 论文:U-Net: Convolutional Networks for Biomedical Image Segmentation
  • 源代码:https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/
  • Keras复现版本:Runist/U-Net-keras

你可能感兴趣的:(语义分割,深度学习,人工智能,计算机视觉)