SwinIR: Image Restoration Using Swin Transformer论文笔记

前言

该算法将Swin Transformer应用于图像复原的领域,主要网络结构分为三个部分:①浅层特征提取 ②深层特征提取 ③高质量图像重建。主要应用于图像复原的三个方向,图像超分辨、图像降噪、由于JPEG压缩造成的伪影减少。主要是借鉴了Swin Transformer即有局部特征又可以全局特征的特点,而且可以使用更少的参数来达到更好的效果。

网络框架

下图是SwinIR的整体框架图,主要包括三个部分,第一个部分是浅层特征提取网络,主要提取图像里面的低频信息;第二个部分是深层特征提取网络,主要提取高频信息,这也是最重要的一环,因为图像复原主要是恢复图像的高频信息;最后一个是根据前面提取到的信息进行图像重建。

SwinIR: Image Restoration Using Swin Transformer论文笔记_第1张图片

 图1 SwinIR框架图

1. 浅层特征提取

文章里面直接使用了一个3×3的卷积核对大小为H×W×C的输入图像进行特征提取,给出的解释是卷积层有利于Transformer的早期图像处理,可以带来更好的结果。引用的论文为:Early Convolutions Help Transformers See Better,感兴趣可以自己去了解下。

2.深层特征提取

深层特征提取为重点,主要也是参考了Swin Transformer来进行设计的,是一个叫RSTB模块,如下图左,整个模块的为串联结构,主要由STL的子模块和一个3×3的卷积层组成(我也不知道为什么要用一个3×3的卷积核,一般来说卷积核的维度应该和channel数相同),并且在头部和尾部加入了进行残差融合。

STL子模块就是Swin Transformer层,其实就是Swin Transformer的模块,基本结构差不多,具体实现MSA可以看霹导的这篇文章,非常详细,这也是Swin Transformer的精华所在。

Swin-Transformer网络结构详解_太阳花的小绿豆的博客-CSDN博客_swin网络SwinIR: Image Restoration Using Swin Transformer论文笔记_第2张图片

  图1 RSTB和STL的模块图

 3. 重建网络

SwinIR将浅层的低频信息转入重建模块帮助重建高频信息和更稳定地训练,主要实现是使用了亚像素卷积层去对特征进行上采样最后得到高分辨率的图像。文章中没有详细说明实现过程,主要参考这篇引文:Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network

4. 损失函数

文章中针对不同的任务用的损失函数也不一样。

超分辨问题:用的是像素的L1范数计算损失,主要是重建后的图像和原来的高质量图像的对应像素计算L1范数损失。

真实世界的超分辨问题:使用的是GAN损失和感知损失,参考了ESRGAN网络的损失函数。

图像降噪和压缩伪影减少问题:Charbonnier损失

实验

超参数对比

本部分的实验主要是寻找网络的最优结构,(a)(b)(c)图分别对通道数(这个通道数是什么我不太理解)、RSTB模块的数量以及RSTB里面STL的层数进行试验;(d)(e)(f)图是在训练过程中对比RCAN网络的优势,基本可以认为各方面的效果都比RCAN要好。

SwinIR: Image Restoration Using Swin Transformer论文笔记_第3张图片

在RSTB模块的对比实验中,得出结论:

①在3×3网络中加入残差比不加效果要好0.16dB。

②虽然增加卷积核的通道数也有一定的提升,但是也会增大参数数量,所以综合考量下,单通道效果最好。

SwinIR: Image Restoration Using Swin Transformer论文笔记_第4张图片

 超分辨实验

在传统超分辨实验中的对比如下图,有➕代表大模型,没有则是小模型,确实取得了不错的结果,但是提升其实并不多,至少可以认为是有效果的。

SwinIR: Image Restoration Using Swin Transformer论文笔记_第5张图片

 轻量模型之间的对比如下图:SwinIR: Image Restoration Using Swin Transformer论文笔记_第6张图片

 JPEG压缩残影实验

SwinIR: Image Restoration Using Swin Transformer论文笔记_第7张图片

降噪模型实验

分别是灰度图降噪模型和彩色图降噪模型:

SwinIR: Image Restoration Using Swin Transformer论文笔记_第8张图片

总结

SwinIR总体来说取得了非常不错的效果对比以往的模型,但是其实提升没有那么惊艳,但是对于参数数量来说减少了很多,这个方向还可以继续探究。

你可能感兴趣的:(transformer,论文阅读,深度学习)