Recurrent U-Net for Resource-Constrained Segmentation

1. Introduction

目前的语义分割结构倾向于集中于高分辨率和大规模数据集,并依赖于经过预训练的骨干网络(ResNet101)。 这导致较高的GPU内存使用量和推理时间,在需要实时性能的环境下的操作并不理想。 之前的ICNet 之类的架构已解决了这一问题,但代价是性能大幅下降,作者提出了一个新的结构来解决这个问题——Recurrent U-Net。

Recurrent U-Net for Resource-Constrained Segmentation_第1张图片
图2 循环分割(Recurrent Segmentation)。 (a)将先前的分割mask st-1与图像x concatenating,并将其循环馈送到网络。 (b)对于序列分割(sequence segmentation),要考虑网络的内部状态,可以改为将CNN与标准的循环单元结合起来。 在这里,我们以(c)的U-Net结构为基础,并提出在其多个层上构建一个循环单元。

2. Related Work

解决资源受限的网络主要有两种,第一种是采用encoder-decoder的网络,第二种是多分支结构,比如空间金字塔结构。

3. Method

Recurrent U-Net for Resource-Constrained Segmentation_第2张图片

3.1. Recurrent U-Net

如图3(a),我们的U-Net encoder和decoder之间有跳跃连接,在所有卷积层中使用组归一化,作者的贡献是在分割结果 s 和 网络的多个内部状态 集成递归,分别是 在每次循环迭代t上简单的将之间的分割mask st-1 与 输入图像进行concatenating,和 我们用循环单元代替U-Net结构的编码和解码层的自己。

下面只考虑在循环迭代t处的过程,
在这里插入图片描述第L个编码层的激活值
在这里插入图片描述对应的解码层的激活值

ht-1: 之前的隐藏张量
ht: 新的隐藏张量

我们可以选择循环单元插入的特定级别,在图3(b)中所展示的是级别为3时候的网络结构,当级别为0的时候,整个U-Net包含在其中。

3.2. Dual-gated Recurrent Unit

Recurrent U-Net for Resource-Constrained Segmentation_第3张图片
DRU借鉴了GRU的设计灵感,
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
z:更新门
fz(.)表示一种编码器-解码器网络,其结构与我们用递归单元替换的U-Net部分相同
其中fh(.)是一个与fz(.) 具有相同结构的网络
在这里插入图片描述按照元素相乘
r:重置张量(reset tensor),允许我们屏蔽用于计算hˆ的部分输入。 。 计算为
其中fr(.)是一个与之间的网络具有相同结构的网络
ht:新的隐藏状态

3.3. Single-Gated Recurrent Unit

Recurrent U-Net for Resource-Constrained Segmentation_第4张图片
DRU的缺点:DRU合并了三个编码器-解码器网络,根据级别的选择,这可能变得占用大量存储器。 为了降低此成本,因此,我们引入了简化的循环单元,该单元依赖于单个门,因此被称为单门循环单元(SRU)。
具体来说,如图3(d)所示,我们的SRU具有与DRU相似的结构,但没有reset tensor r。 因此,方程式与上述基本相同,除了候选隐藏状态外,我们现在将其表示为
在这里插入图片描述
这种简单的修改使我们能够从循环单元中删除一个编码器/解码器网络,正如我们的结果所示,分割精度的损失很小。

3.4. Training

在这里插入图片描述
L是总损失,N是递归数目,Lt是在迭代t处的交叉熵损失,wt是加权系数。
在这里插入图片描述
在这个实验中,要么设置α= 1,要么α= 0.4

4. Experiments

作者将数据集划分为20% / 20% / 60% ,以进行 训练 / 验证 / 测试 。

数据集:
Recurrent U-Net for Resource-Constrained Segmentation_第5张图片
Recurrent U-Net for Resource-Constrained Segmentation_第6张图片
Recurrent U-Net for Resource-Constrained Segmentation_第7张图片
表3显示DRU-VGG16优于Ours-DRU,例如KBH上的0.02 mIoU点。 DRU-VGG16具有41.38M参数。 这是Ours-DRU(4)的100倍,后者只有0.36M参数。 此外,DRU-VGG16仅以18 fps运行,而Ours-DRU(4)达到61 fps。 这使得DRUVGG16和其他重型模型不适合VR摄像机等嵌入式系统,而Ours-DRU可以在资源受限的环境中更容易地利用
Recurrent U-Net for Resource-Constrained Segmentation_第8张图片

视网膜,手部和道路图像; 1、2和3次迭代后的结果、Ground Truth。
Recurrent U-Net for Resource-Constrained Segmentation_第9张图片
Recurrent U-Net for Resource-Constrained Segmentation_第10张图片

你可能感兴趣的:(语义分割论文笔记,深度学习)