UNet学习笔记

UNet创新点

UNet是一个简洁清晰的网络,作者在文中都把UNet成为一个elegant的模型。不过确实,优雅的U型encoder-decoder结构,简单清楚,特别是作者的模型图,真的很优雅。UNet是在FCN上的改进,我觉得这个网络创新点是

  1. 在和浅层精细特征的拼接上并不是直接相加,而是将其在通道这个维度上拼接,这样能够形成更加厚的特征层,可以让后面的上采样得到原始的浅层特征。每一次下采样提炼特征的同时,也必然会损失一些边缘特征,而失去的特征并不能从上采样中找回,因此通过特征的拼接,来实现边缘特征的一个找回。
  2. 然后我觉得就是UNet提出的简单的网络模型能够很好的应用在样例比较少,特征数量少,简单,重要的分类上,就像在它在细胞分割领域上大放异彩。
  3. UNet中在每一张GT上预先设定好的权重特征图,在细胞间隔上给予更大的权重,使得模型能够准确的将细胞之间的间隔分离开来。

UNet关键点

图像语义分割范围

在原文作者给出的输入图像大小和最后得到的heatmap大小是不同的
UNet学习笔记_第1张图片
作者说只预测具有上下文的特征点,边界的像素点没有上下文这里没有预测结果,只有中间的区域有结果。作者也说到如果要预测边界的像素语义,可以将缺失的部分用原图像的镜像代替
UNet学习笔记_第2张图片
但是在后来别人的实现里都是将输出的尺寸改为和输入的一样,所以也不知道是不是作者这样做只适用于细胞的语义分割。但是作者也提出这种方法也可以用于在图片的分辨率过大,显卡内存不够时,通过分割图片预测就可以。

预先权重图的设计

为了能够让网络能够学校到细胞之间的边界,分割出细胞之间的边界。作者对每一个GT图都做了预权重的计算
权重
两个细胞之间距离越近w(x)就越大。
这种方式也可以用在补偿训练数据集中某个类别的像素的出现不多,但又十分重要的情况下。

初始权重的设计

这个好像不是特点,应该算是网络训练的一种技巧吧,我也没看明白,就不说了。

网络结构

UNet学习笔记_第3张图片
这种U型结构真的很优雅。在Unet论文中是池化4次,比方说一开始的图片是224x224的,那么就会变成112x112,56x56,28x28,14x14四个不同尺寸的特征。然后我们对14x14的特征图做上采样或者反卷积,得到28x28的特征图,这个28x28的特征图与之前的28x28的特征图进行通道伤的拼接concat,然后再对拼接之后的特征图做卷积和上采样,得到56x56的特征图,再与之前的56x56的特征拼接,卷积,再上采样,经过四次上采样可以得到一个与输入图像尺寸相同的224x224的预测结果。其实整体来看,这个也是一个Encoder-Decoder的结构(抄别人的解释,,,)。

总结

UNet是一个很简单的网络,但是却在简单的分类中十分出色,我看网上别人的解释为:

  1. 医疗影像语义较为简单、结构固定。因此语义信息相比自动驾驶等较为单一,因此并不需要去筛选过滤无用的信息。医疗影像的所有特征都很重要,因此低级特征和高级语义特征都很重要,所以U型结构的skip connection结构(特征拼接)更好派上用场
  2. 医学影像的数据较少,获取难度大,数据量可能只有几百甚至不到100,因此如果使用大型的网络例如DeepLabv3+等模型,很容易过拟合。大型网络的优点是更强的图像表述能力,而较为简单、数量少的医学影像并没有那么多的内容需要表述,因此也有人发现在小数量级中,分割的SOTA模型与轻量的Unet并没有神恶魔优势
  3. 医学影像往往是多模态的。比方说ISLES脑梗竞赛中,官方提供了CBF,MTT,CBV等多中模态的数据(这一点听不懂也无妨)。因此医学影像任务中,往往需要自己设计网络去提取不同的模态特征,因此轻量结构简单的Unet可以有更大的操作空间。
    但是我在论文中有一点迷惑的地方就是这一点

This allows the network to learn invariance to such deformations, without the need to see these transformations in the annotated image corpus. This is particularly important in biomedical segmentation, since deformation used to be the most common variation in tissue and realistic deformations can be simulated efficiently.

作者说要通过数据增强使得网络学习变形的不变特性,但是这样不会导致定位不准确吗?毕竟学取到变形的抽象特征,有可能变形的有关定位的特征的权重就降低了。又或者说作者的意思不是我想的那种意思?学习到变形的不变性是指变形特点的不变性?学习之后会更加容易定位?

你可能感兴趣的:(学习,计算机视觉,人工智能)