SAM论文笔记:A Stereo Attention Module for Stereo Image Super-Resolution

作者:Xinyi Ying、 Yingqian Wang 、 Longguang Wang、 Weidong Sheng、 Wei An、Yulan Guo
论文被 IEEE Signal Processing Letters (SPL2020)期刊录用。
原论文代码链接

1.1 stereo图像SR方法总结

(1)StereoSR(CVPR2018)
SAM论文笔记:A Stereo Attention Module for Stereo Image Super-Resolution_第1张图片
(2):PASSRnet (CVPR2019)
SAM论文笔记:A Stereo Attention Module for Stereo Image Super-Resolution_第2张图片
(3):SPAMnet(AAAI2020)
SAM论文笔记:A Stereo Attention Module for Stereo Image Super-Resolution_第3张图片
SAM论文笔记:A Stereo Attention Module for Stereo Image Super-Resolution_第4张图片
  它将左右图的信息融合分为了两个阶段。拿从右到左的转换来举例,在第⼀个阶段中,右图通过视差注意⼒图转到左图,并与左图特征(经残差块转换)以及左图经过⾃注意机制转换得到的特征级联,⽽后初步融合;在第⼆阶段中,SPAM利⽤左右视⻆的视差注意⼒图计算得到两边视⻆的disparity map,并通过⽐对左右图 disparity 的⼀致性得到左右图的valid masks,实现occlusion-aware 的左右特征融合。

1.2 stereoSR面临的挑战:

  立体SR网络应具有强大的cross-view信息挖掘能力。注意,立体图像之间的差异沿水平极线变化很大,导致在捕获可靠的stereo correspondence面临巨大的挑战。
立体SR网络也应该在intra-view信息开发方面具有强大的能力。然而,与SISR数据集相比,立体SR数据集的图像质量和多样性相对较低。立体图像SR算法要充分利用这些数据集中的intra-view信息是一个挑战。

1.3 本文算法概述:

  作者提出了一个通用的stereo attention module(SAM),可以扩展到任意的SISR网络。具体来说,对立体图像应用两个相同的预训练的SISR网络提取特征。然后将几个SAMs插入到网络中,在不同的阶段interact cross-view information。最后,将intra-view 和 cross-view information在SISR网络中合并,重构出HR立体图像。不同于StereoSR、PASSRnet算法,他们在立体数据集上从零开始训练,本文使用预训练的SISR模型,仅在立体数据集进行fine-tune 。表I显示,使用带有fine-tune操作的SAM可以获得更好的性能。

1.4 贡献:

  提出了一个通用的SAM模块,能够扩展到预训练的SISR网络解决立体图像超分辨率问题。有效利用cross-view信息,同时保持intra-view信息的利用的优势;
提出的SAM可以插入到不同阶段以增强cross-view信息交互;
低质量立体图像数据集带来的性能下降问题可以通过使用预先在SISR数据集上训练的SISR网络解决;
大量实验表明了该方案的有效性。如表IV所示,SAM可以应用于不同的SISR网络,以提高其性能。

2. 方法细述

SAM论文笔记:A Stereo Attention Module for Stereo Image Super-Resolution_第5张图片
  首先将立体图像送到两个相同的预先训练的SISR网络(如VDSR),生成特征表示。然后,在SISR网络之间插入若干个SAM,以交互不同阶段的cross-view信息。在两个SISR网络中,cross-view和intra-view信息通过卷积进一步合并。最后,重构了HR立体图像。

2.1 Stereo Attention Module

SAM能够以一种symmetric 、compact的方式双向交互立体信息。
在这里插入图片描述
在这里插入图片描述SAM论文笔记:A Stereo Attention Module for Stereo Image Super-Resolution_第6张图片在这里插入图片描述
在这里插入图片描述

2.2 损失函数

在这里插入图片描述
u=0.01表示正则化权值,n是SAM的数量。 L S R L ^{SR} LSR表示均方误差MSE,是超分辨率的结果和真实HR图像之间的SR损失;
SAM论文笔记:A Stereo Attention Module for Stereo Image Super-Resolution_第7张图片
光照损失, ⊙ \odot 表示Hadamard product;光度损失的目标是约束整个网络以监督的方式学习交叉视图信息,从而生成更合理的注意图。

3. 实验

3.1 实验细节

  训练集:Flickr1024数据集;因为它是迄今为止最大的真实数据集,而在该数据集上开发的立体图像SR方法可以获得全面的优越性能。
  先downsampled所有训练集(x2, x4)生成LR图,以20为步长,crop LR图像成90*30patches。HR图像做相同的裁剪处理。
  数据增强:随机水平、垂直翻转
  Nvidia RTX 2080Ti GPU
  加载预训练的SISR模型后,使用Adam方法对网络进行fine-tuned,学习率0.0001;当PSNR值在验证集上收敛时,停止训练。
  测试集:20张KITTI数据集图像、5张Middlebury数据集图像。

3.2 Ablation Study

  使用不同的策略来研究不同的设计选择所带来的潜在影响。
  (1) Fine-Tune
SAM论文笔记:A Stereo Attention Module for Stereo Image Super-Resolution_第8张图片
  (2) 不同阶段的SAM
SAM论文笔记:A Stereo Attention Module for Stereo Image Super-Resolution_第9张图片
  在网络的后期插入SAM时,不能完全合并 cross-view和 intra-view信息
  (3) 不同的SAM个数
SAM论文笔记:A Stereo Attention Module for Stereo Image Super-Resolution_第10张图片
  PSNR和SSIM随SAM增加而增加;随着SAMs数量的增加,改进趋于饱和。这是因为,已经充分利用了跨视图信息,进一步增加SAM个数只能提供微小的改进。

3.3 与先进方法的对比

SAM论文笔记:A Stereo Attention Module for Stereo Image Super-Resolution_第11张图片
  SAM在5个SISR方法上都有提高其性能,证明其有效性和通用性。以上SISR中仅插入了2个SAM,可以提高数量进一步增强性能。

3.4 可视化结果

SAM论文笔记:A Stereo Attention Module for Stereo Image Super-Resolution_第12张图片

你可能感兴趣的:(SAM论文笔记:A Stereo Attention Module for Stereo Image Super-Resolution)