CVPR最新论文:只需要SwinIR的6%参数量就可以实现相同效果

今天分享的论文是CVPR2023《Comprehensive and Delicate: An Efficient Transformer for Image Restoration》

代码

https://github.com/XLearning-SCU/2023-CVPR-CODE

问题

viT(Vision Transformers)通常基于窗口或者通道关注来避免密集计算,但是这种方式获得是局部的像素关系而不是全局依赖(这与transformer的本质相悖)

背景

CNN虽然在图像恢复中证明很有效但是存在下面的问题:

  1. CNN 中固定不变的权重,而不是在训练过程中动态调整的权重。这种固定权重的设置限制了模型的能力,使得它难以对不同的实例进行自适应调整
  2. CNN 的稀疏连接限制了全局依赖性的捕获

因此提出transformer获取动态加权能力和全局依赖能力,但是对于图像恢复专用的 Transformer,最大的障碍是全局注意力计算的成本。因此,人们提出了一些有效的注意力机制来提高效率,例如局部窗口注意力、移位窗口注意力和通道注意力,又产生新的问题:

  1. 计算成本仍然很高
  2. 注意力机制只能捕获给定范围内的依赖关系,局部性可能无法充分发挥 Transformer 的潜力

解决

思想

  1. 将像素级的特征自适应地聚合到超像素的低维空间中,以消除通道和空间域中的冗余。
  2. 通过特征聚合,维数显着降低,以可接受的计算成本以全局方式计算注意力。
  3. 进行特征恢复以恢复通道域和空间域中的特征分布。

依赖关系在超像素维度中,而恢复的新像素依赖于超像素的全局信息

方法

利用两个模型,先利用CA(condensed attention neural block)模块来得到超像素的全局依赖性,再利用DA(dual adaptive neural block)模块来将全局性依赖转移到每个像素中

CA使用特征聚合,注意力计算和特征恢复来完成

DA采用双路结构自适应地将全局性超像素封装到像素中

只需要SwinIR的6%flops就可以实现相同效果
CVPR最新论文:只需要SwinIR的6%参数量就可以实现相同效果_第1张图片

CVPR最新论文:只需要SwinIR的6%参数量就可以实现相同效果_第2张图片

你可能感兴趣的:(论文分享,人工智能,深度学习)