论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration

论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration


写在前面:
距离我上次半途而废TensorFlow笔记已经过去了整整一年半。
其实我自己也知道半途而废是不好的(笑。
承蒙本校不弃,收留我读研(bushi),本科研小白上路了。
上传自己的阅读笔记,一是方便以后查阅,二是想记录自己的水平变化,三是我确实很想当一个周更博主!

评论区欢迎指正和讨论,一起学习冲冲冲


论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第1张图片

目录

  • 论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration
    • 1 Motivation
    • 2 Method
    • 3 Experiment&可视化
    • 5 消融实验
    • 6 Conclusion

1 Motivation

CNNs:
论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第2张图片
论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第3张图片
(a)接收域受限,无法对远距离像素之间的依赖关系进行建模
(b)滤波器的权重静态,不能灵活适应输入内容

Transformer:
优点:可以捕捉远距离像素之间的交互关系
缺点:计算复杂度随着空间分辨率的增加而平方增加,无法应用于高分辨率图像。

解决方法:
输入图像分为48*48的patches,独立计算每个patch的self-attention。
存在问题:
限制SA空间范围vs捕捉远距离像素之间的关系 矛盾

2 Method

论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第4张图片

  • 提出了一种编解码Transformer用于高分辨率图像上多尺度local-global表达学习,且无需进行局部窗口拆分;

论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第5张图片
编码器分层降低空间分辨率,同时扩展通道;解码器降低通道数,提升空间分辨率;
让Transformer块将编码器的低级图像特征与解码器的高级特征聚合在一起;
细化阶段进一步丰富深度特征Fd;
论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第6张图片

  • 提出一种MDTA(Multi-Dconv head Transposed Attention)模块,它有助于进行局部与非局部相关像素聚合,可以高效的进行高分辨率图像处理;
    论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第7张图片
    论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第8张图片
  • 提出一种GDFN(Gated-Dconv Feed-forward Network)模块,它可以执行可控特征变换,即抑制低信息特征,仅保留有用信息
    论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第9张图片
    归一化;第一1×1卷积:用于扩展特征通道(通常通过因子γ=4);3×3卷积:学习局部信息;
    GELU激活,点积
    第二:通道降维到原始维度,加上输入图像
    在这里插入图片描述
  • Progressive Learning
    Transformer模型在较小块上训练可能无法进行全局统计信息编码,进而导致全分辨率测试时的次优性能。
    在训练的初期,模型在较小图像块上进行训练;在训练的后期,模型采用更大图像块进行训练 。由于更大的图像块会导致更长的计算耗时,我们随图像块提升降低batch,保持训练时间不变。

3 Experiment&可视化

论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第10张图片

用得最多,但是其值不能很好地反映人眼主观感受。一般取值范围:20-40.值越大,视频质量越好。

SSIM(结构相似性):
计算稍复杂,其值可以较好地反映人眼主观感受。一般取值范围:0-1.值越大,视频质量越好。

论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第11张图片
论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第12张图片
论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第13张图片
论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第14张图片
LPIPS:
学习感知图像块相似度,用于度量两张图像之间的差别。LPIPS 比传统方法(比如L2/PSNR, SSIM, FSIM)更符合人类的感知情况。LPIPS的值越低表示两张图像越相似,反之,则差异越大。
MAE(Mean Absolute Error):
平均绝对误差
论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第15张图片
论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第16张图片
论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第17张图片
论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第18张图片
论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第19张图片

5 消融实验

论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第20张图片
FLOPs复杂度
Params参数量
论文笔记 |【CVPR2022】Restormer: Efficient Transformer for High-Resolution Image Restoration_第21张图片
1×1卷积可以进一步提升模型性能;
Progressive学习机制指标更好;
深而窄的模型比宽而浅的模型更好;

6 Conclusion

Restormer:
MDTA:
(跨通道而不是空间维度,SA,进行局部与非局部相关像素聚合,建模全局上下文+线性复杂度)
GDFN:
控制信息流动, 进而使得每层聚焦于不同的细节信息。->抑制低信息特征,仅保留有用信息。

你可能感兴趣的:(Low-level,transformer)