Uformer: A General U-Shaped Transformer for Image Restoration 论文笔记

前言

借鉴了图像分割和识别网络那边的Unet运用到图像恢复领域上,主要包括图像降噪、运动去模糊、失焦模糊和去雨四个任务。

创新点:

①提出了一种新的基于Transformer结构的自注意力模块,类似于SWIR。

②提出了一种可以学习的多尺度调制器嵌入到解码器中。

网络结构

Uformer: A General U-Shaped Transformer for Image Restoration 论文笔记_第1张图片

整体网络结构其实就是Unet,但是里面的模块不一样。

首先,输入时一个3×H×W的图像,然后经过一个3×3的卷积核和LeakyReLU激活函数组成的卷积层提取特征,即为图中的Input Projection,输出为C×H×W的特征层。然后进入网络前半部分,编码器,是由K个LeWin Blocks组成的(实验结果显示K=4结果较好),每一层都是先经过LeWin模块后再经过一个下采样层,通道数翻倍,长宽减半,与解码器后面对应相同大小的特征进行叠加。

LeWin Transformer模块

这个模块在论文中说的目的是为了增强局部特征,减少计算量。这个计算量是相对整幅图像进行注意力计算,只不过将图像分成很多子图像进行注意力计算。但是,本质上来说其实就是局部注意力机制,将图像分成M×M个子图像,然后分别对每个子图像内部进行注意力计算,存在的问题其实是子图像和子图像之间没有信息交互。其实SWIN Transformer 就是在做这样一件事,但是还加上了移动的窗口,所以效果会更好。

Locally-enhanced Feed-Forward Network (LeFF)

这个是文中说LeWin模块另外一个创新点,用到了这样的一层网络结构,具体原因其实论文并没有讲的特别清楚,可能大部分也是参照之前的网络进行设计的。

Uformer: A General U-Shaped Transformer for Image Restoration 论文笔记_第2张图片

 Multi-Scale Restoration Modulator

在Lewin Transformer模块中,在MSA的输入前还加入了一个可学习的调制器,M×M×C(对第一个Lewin模块来说的大小)的向量,类似于一个共享权重,也是可学习的参数。具体有什么作用,论文也没有给详细的说明,只是实验结果是这么来的,论文最后笼统地总结了一下:在解码器的每个阶段添加调制器可以灵活调整特征图,从而提高恢复细节的性能。

实验

图像降噪

Uformer: A General U-Shaped Transformer for Image Restoration 论文笔记_第3张图片

 运动去模糊

Uformer: A General U-Shaped Transformer for Image Restoration 论文笔记_第4张图片

失焦模糊

Uformer: A General U-Shaped Transformer for Image Restoration 论文笔记_第5张图片

 去雨

 

Uformer: A General U-Shaped Transformer for Image Restoration 论文笔记_第6张图片

 总结

Uformer总体来说在各个图像恢复的任务上都达到了非常不错的效果,也可能是因为集合了之前模型研究出来一系列套路,其实这种套路应用在任何计算机视觉任务都不会差。比如说,编码器-解码器结构、U型结构、transformer应用以及局部注意力,给我的感觉是有点像集大成者的感觉,把之前的经验总结到了一起,然后做出了这个模型应用在了图像恢复这个领域。文中很多结构的设计也没有给说明或者原因,这是问题之一。而且从今天看来,其实还有待改进,比如如果将LeWIN改成SW效果会不会更好。

你可能感兴趣的:(论文阅读)