CVPR2022-图像恢复重建Restormer论文解读

CVPR2022文献解读之Restormer

图像恢复重建:
Restormer: Efficient Transformer for High-Resolution Image Restoration
原文传送: https://arxiv.org/abs/2111.09881
官方源码:https://github.com/swz30/Restormer


文章目录

  • CVPR2022文献解读之Restormer
  • 写在开始
  • 一、文献定位
  • 二、创新点
  • 三、网络结构
    • 1. MDTA(multi-dconv head transposed attention)
    • 2. GDFN(gated dconv feed-forword network)
    • 3. Progressive learning
  • 四、可借鉴的一些点


写在开始

小小溪本着简洁明了传达论文核心思想的态度,记录自己阅读文献中的理解和思考,与大家分享。文中只是我自己对文献的一些理解,因此建议感兴趣的文献还是要再啃遍原文,如有其他不同理解也欢迎评论区讨论和指正,大家一起进步~~~


一、文献定位

将transformer应用于图像恢复重建(去雾,去模糊)


二、创新点

  1. 改进transformer的空间自注意力为带有深度可分离卷积的通道自注意力;
  2. 卷积前向网络改为带有gating及深度可分离卷积的前向网络;
  3. 训练方式:输入图像尺寸由小到大的progressive learning。

三、网络结构

纯净版:
CVPR2022-图像恢复重建Restormer论文解读_第1张图片
标记版:
CVPR2022-图像恢复重建Restormer论文解读_第2张图片
网络总体框架仍为带有全局residual的u-net结构。
首先经3×3卷积提取低阶特征F0;再经4阶段transformer构成的encoder-decoder,其中上、下采样分别由pixel unshuffle和shuffle实现;接着经transformer进行refinement;最后,再通过3×3卷积恢复原始通道数,与原图residual相加得到输出。

1. MDTA(multi-dconv head transposed attention)

首先要注意这里的Dconv是指deep-wise conv而非上采样deconv。本文Transformer改原始空间图像patch的self-attention为通道上的self-attention,运算量大大下降。self-attention的Q\K\V均由1×1,3×3深度可分离卷积映射得到,最终C个通道被映射展平为C个HW维的向量,做attention。
Self-attention可以看作是丰富提取信息的过程。

2. GDFN(gated dconv feed-forword network)

以往transformer前向网络就是带有激活层的两层卷积,本文的前向网络是两个1×1,3×3深度可分离卷积构成的小分支,其中一支带有GELU激活,两分支得到的特征图逐点相乘。两分支结构必然导致运算量增大,因此卷积后的通道数设计的比以往前向网络小。
Gated前向网络可以看作是对信息的一个筛选,控制网络前向传播的信息。

3. Progressive learning

Low-level图像任务需要做像素级的图像处理,全图输入训练开销太大,因此在训练时通常只将经crop的小patch送入网络,但这样不利于transformer学习全局信息,另外训练与测试的图像不一致也会导致推理性能不佳。
本文在训练时采取progressive learning的策略,即训练中逐渐增大输入网络的图像尺寸(为降低运算量,batch size会相应减少)。


四、可借鉴的一些点

  1. 通道transformer和gated前向网络。
  2. encoder-decoder的第一阶段只concate不通过卷积进行通道数减少的融合。第一阶段浅层特征往往包含一些边缘等结构信息,有利于low-level任务。
  3. progressive learning。考虑到全局信息对图像恢复重建的重要性,之前本人也一直觉得直接用crop的图像块做训练不甚合适,因此本文在训练过程中逐渐增加图像尺寸的progressive learning可以借鉴。

你可能感兴趣的:(文献记录,深度学习,transformer)