论文笔记:Non-local U-Nets for Biomedical Image Segmentation

因为是一篇医疗图像的论文所以看看大概做成什么样子,中了AAAI2020

U-Net

与自然图像不同,在医疗图像上U-Net被应用地较为广泛,具体原因可以参考知乎这篇回答。
网络结构之前讨论过了,如下:
论文笔记:Non-local U-Nets for Biomedical Image Segmentation_第1张图片

motivation

2个limitations:
1. 卷积和下采样操作都是local的,只能提取局部信息。长距离信息需要通过大量堆叠卷积和下采样操作得到。因为feature map的数量会在线下采样之后double,大量的参数会导致模型不那么efficient。更多的下采样操作会导致更多的空间信息的丢失。
2. 上采样的过程也是相似,然而由于没有考虑到global information,所还原的空间信息是"hard"的。

method

在此基础上,提出了non-local U-Net。
U-Net网络结构作者也给出:
论文笔记:Non-local U-Nets for Biomedical Image Segmentation_第2张图片
其中input/output block, down-sampling residual block,bottom block,up-sampling residual block分别如下图a,b,c,d:
论文笔记:Non-local U-Nets for Biomedical Image Segmentation_第3张图片
为了整合全局信息,作者还提出了Global Aggregation Block。其中unfold指的是把 D ∗ H ∗ W ∗ C D*H*W*C DHWC的向量转化为 ( D ∗ H ∗ W ) ∗ C (D*H*W)*C (DHW)C的矩阵操作。
论文笔记:Non-local U-Nets for Biomedical Image Segmentation_第4张图片
看起来很复杂,然而就是和non-local一模一样的版本换了个名字而已。
non-local:
论文笔记:Non-local U-Nets for Biomedical Image Segmentation_第5张图片
不过说一模一样也不太准确。因为在作者提出的non-local u-net中,反复强调,这样一个Global Aggregation Block最终输出是由Q的维度决定的。而Q,K,V是对Input进行这样一个处理之后得到的:
论文笔记:Non-local U-Nets for Biomedical Image Segmentation_第6张图片
Q u e r y T r a n s f o r m C k QueryTransformC_{k} QueryTransformCk指任意能产生 C k C_{k} Ck特征图的操作。换句话说,non-local中feature的通道数这里进行了修改:
在这里插入图片描述

这其实就是给出了non-local那几个特征图维度更加一般的形式而已,non-local原文没有讨论吗?(我大概翻了一下没翻到)。其实看到这里,我估计下面就是"减少通道数c以减少运算量",然后实验跑一跑发现减少了性能还不错,实现"又快又好"。但在后面实验中,却完全没有提到 C k C_{k} Ck的设置,反而接着在method介绍部分,作者声明了 C k = C v = C o C_{k}=C_{v}=C_{o} Ck=Cv=Co

experiments

实验指标用的是DR(Dice ratio):
在这里插入图片描述
和MHD(3D modified Hausdorff distance):
对于两个用向量表示单个点的点集合A,B。
M H D = m a x ( d ( A , B ) , d ( B , A ) ) MHD=max(d(A,B),d(B,A)) MHD=max(d(A,B),d(B,A))
在这里插入图片描述
d ( a , b ) = m i n b ϵ B ∥ a − b ∥ d(a,b)=min_{b\epsilon B}\left \| a-b \right \| d(a,b)=minbϵBab

在三中任务上进行实验:
The task is to perform automatic segmentation of MR images into cerebrospinal fluid (CSF), gray matter (GM) and white matter (WM) regions.
论文笔记:Non-local U-Nets for Biomedical Image Segmentation_第7张图片
以下是参数量和时间的比较:
论文笔记:Non-local U-Nets for Biomedical Image Segmentation_第8张图片

值得一提的是,作者在实验开始就将baseline设置为CC-3D-FCN(3D fully convolutional network with convolution and concatenate (CC) skip connections),理由大致是: CC-3D-FCN在婴儿脑图像分割上是sota(同时也超越了UNet)。摆明了基于U-Net进行改进,却和主干网络都不同的另一个网络模型直接比较性能和速度,我也是第一次见。

ablation study就是把一个个u-net的模块逐一换成残差块,性能略有提升:
论文笔记:Non-local U-Nets for Biomedical Image Segmentation_第9张图片

总结

作者分别在输入输出,上下采样,语义信息最多的底部用了残差块。在底部和上采样用了non-local自注意力机制。因为对分割那里了解较少,不知道是不是已经有人做过U-Net加残差块的工作(在检测这里残差块基本是标配了)。non-local也是直接的套用。所以在method部分,基本上通篇都在讲别人的方法。。。。。。实验能否这样比我也说不出哪里有错,但就是感觉很奇怪。就看过的几篇来说,医疗图像的顶会论文似乎和自然图像顶会论文差距还不小。自然图像的水文至少有一个看起来有些新颖的理念或实现,尽管很多也没啥实际意义,医疗图像这里怎么就直接套用就完事了呢?

你可能感兴趣的:(论文笔记:Non-local U-Nets for Biomedical Image Segmentation)