论文解析[1] U-Net: Convolutional Networks for Biomedical Image Segmentation

发表年份:2015
论文地址:https://arxiv.org/abs/1505.04597

文章目录

  • 论文概要
  • 1、介绍
  • 2、网络结构
  • 3、训练
    • 3.1、数据增强
  • 4、实验
  • 5、结论
  • 个人总结
  • 参考资料

论文概要

提出了一种网络结构:包括一条收缩路径(用于特征提取)和一条对称的扩展路径(用于获取精确的像素定位)。

  • 这种网络只需要很少的图像进行训练,
  • 在 ISBI 分割挑战上超过了先前最好的方法。
  • 运行速度很快,在单显卡上分割一张512*512大小的图像仅需不到一秒。

1、介绍

分类是卷积神经网络的经典用途,其输出的结果是单一的类别标签。然而在生物医学图像处理中,输出应该包含每个像素的定位(即每个像素是属于什么类别)。

这时出现了一种滑动窗口的网络训练方法,使用每个像素周围的patch来作为输入进行训练。

优点:
1、可以定位
2、训练数据从patch的角度来说大于训练图像

缺点:
1、速度慢。网络需要分开训练每个patch,并且patch有很多重叠的部分。
2、有在定位正确率和背景使用上的权衡。大的patch需要更多的池化层,降低了定位准确率,小的patch只使用了很少的背景信息。

所以在本文中,我们又引入了一个更加优雅的结构:全卷积网络(fully convolutional network,没有全连接层)。本文作者在FCN基础上进行修改和扩展,就得到了u-net。

2、网络结构

论文解析[1] U-Net: Convolutional Networks for Biomedical Image Segmentation_第1张图片

包含一个收缩路径和一个扩展路径

收缩路径类似于典型的卷积网络结构,包括两个3*3的无填充卷积和一个2*2的最大池化层。池化层作为下采样,在每次下采样中将特征通道数变为之前的2倍。

扩展路径包括一个2*2的上采样和两个3*3的卷积。上采样每次将特征通道数变为之前的1/2,并与收缩路径相应裁剪好的特征图进行拼接。

最后一层是一个1*1的卷积层,将64个特征向量映射为类别个数。

3、训练

使用到了一个 energy function,形式类似于交叉熵损失函数

在这里插入图片描述
使用 softmax 来计算第 k 类的最大似然函数 p k ( x ) p_k(x) pk(x)

在这里插入图片描述
上面的 α k ( x ) α_k(x) αk(x) 表示在第 k 个特征通道的激活值

w w w 表示一张权重图,说明哪些像素点在训练中更加重要

对于 w ( x ) w(x) w(x) 的计算:

论文解析[1] U-Net: Convolutional Networks for Biomedical Image Segmentation_第2张图片
d 1 d_1 d1 表示距离最近的细胞边界的距离, d 2 d_2 d2 表示距离第二近的细胞边界的距离

一个好的权重初始值是很重要的。对于我们的网络结构,初始权重可以从一个标准差为 2 / N \sqrt{2/N} 2/N 的高斯分布获得。

N N N 表示一个神经元的输入节点数

3.1、数据增强

当数据较少时,数据增强在增强网络的不变性和鲁棒性上很重要。对于显微镜图像来说,主要需要平移、旋转的不变性、对于变形和灰度变换的鲁棒性。

可以用在3*3网格上的随机替换向量来生成形变,替换值可以在一个标准差为10像素的高斯分布中抽取。每个像素的替代是使用双三次插值法计算的

在收缩层最后的drop-out层进一步进行数据的增强

4、实验

u-net对于电子显微镜下神经元结构的分割效果:

论文解析[1] U-Net: Convolutional Networks for Biomedical Image Segmentation_第3张图片

在光学显微镜下细胞的分割效果(IOU用来表示两个物体的重合度):

论文解析[1] U-Net: Convolutional Networks for Biomedical Image Segmentation_第4张图片

5、结论

u-net结构在不同的生物医学图像分割中获得了非常好的表现。由于数据的增强,它仅需较少的标注图像,并且有可以接受的训练时间。

个人总结

1、上采样和下采样的作用?

下采样用于缩小图像。上采样用于放大图像,主要有转置卷积、插值法。

在本论文中,卷积和下采样作为一个编码器,用于提取特征。卷积和上采样作为一个解码器,用于放大图像,从而对每个像素进行定位。

2、在网络中拼接的作用?

在进行下采样的过程中会丢失一些细节信息,可以拼接对应的图像来填补信息的缺失

参考资料

在阅读论文过程中,查阅了如下文章:

U-Net原理分析与代码解读:https://zhuanlan.zhihu.com/p/150579454?utm_id=0
上采样和下采样:https://blog.csdn.net/ytusdc/article/details/121452878
深度学习论文精读[2]:UNet网络:https://blog.csdn.net/weixin_37737254/article/details/125923940
Unet论文详解:https://blog.csdn.net/weixin_36474809/article/details/87931260

你可能感兴趣的:(#,论文阅读,深度学习,计算机视觉,图像分割,医学图像)