Deep Blind Video Super-resolution

Deep Blind Video Super-resolution_第1张图片
好像中了CVPR 2020???没有查到
代码:https://github.com/jspan/blindvsr

文章思路

所谓盲超分
我的理解是目前大部分的图像和视频超分辨算法,他们所使用的退化模型都是已知的,比如Bicubic核,高斯模糊核。在我们使用CNN去建模时,CNN在超分过程中并不会对模糊核进行建模,因为它是已知的,这样导致的问题就是最后产生的超分结果很平滑,看上去就会显得比较模糊。(这个地方的疑惑是为什么已知了,CNN就不对其建模了?这个地方有大佬有更深入的理解,还望告诉在下,

所以盲超分要解决的问题就是估计模糊核


这篇文章是第一篇做视频盲超分的文章。它提出用深度卷积网络进行视频的盲超分,整个网路由三部分组成:
1)运动模糊核估计网络,因为是视频超分,这里的模糊核就是运动模糊核了。
2)运动估计网络
3)视频帧复原网络
完整架构如下:
Deep Blind Video Super-resolution_第2张图片
整个算法的流程叙述如下:
1)首先进行运动模糊核估计。这个运动模糊核估计网络由两层全连接层组成,实验中两层的大小分别设为1000和225。核估计网络采用高斯核作为输入,输入的具体设置,可以参见源码或者论文[1],然后网络逐渐学习去逼近这个真实的核,最后输出的估计核大小为 15 × 15 15\times15 15×15。这个网络的优化目标如下:
在这里插入图片描述
其中, K ^ \hat{K} K^就是所估计出的运动模糊核, I i I_i Ii是高分辨图像, L i L_i Li是对应的低分辨图像,S是下采样矩阵。
2)模糊核估计完成后,根据下式,求解出一个中间超分结果:
Deep Blind Video Super-resolution_第3张图片
其中 γ = 0.02 \gamma=0.02 γ=0.02
由于得到的中间超分结果可能并不满意,可能存在一些噪声核伪影,所以还需要进一步优化,所以就有了后面的步骤。
3)进行光流运动估计,借助帧间信息辅助目标帧实现更好的超分性能。作者采用了PWC-Net算法,其输入是通过Bicubic上采样后的低分辨图像,接着输出相应的光流信息,然后通过双线性插值,根据所估计到的光流运动信息,warp近邻帧,得到对齐后的近邻帧。
4)将对齐后的近邻帧与第二步得到的中间超分结果首先分别通过space-to-depth (就是PixelShuffle的逆过程)变换到低分辨空间,然后按通道拼接起来送入一个视频帧复原网络中进行精炼,最终输出超分后的视频帧。(这个复原网络文中采用是图像超分算法RCAN)。这个部分的优化目标如下:
在这里插入图片描述
即是超分结果与GT之间L1损失。

训练方式
1)首先训练运动模糊核估计网络。
2)然后再联合光流估计网络和复原网络一起训练(此时运动模糊核网络不再优化参数,只是使用训练好的网络输出结果即可,这是个人理解,文中并没说,我认为我的理解是对的)。

实验结果

训练数据集:REDS
测试集:REDS4,SPMCS,Vid4
评价指标:PSNR,SSIM
在这里插入图片描述
Deep Blind Video Super-resolution_第4张图片
下表评估了运动模糊核估计有效性,前面两个方法是不带模糊核估计的,区别仅在于一个输入低分辨图像,一个输入是Bicubic上采样后(HR)的结果。
Deep Blind Video Super-resolution_第5张图片
模糊核有效性实验可视化结果
Deep Blind Video Super-resolution_第6张图片
下表和下图验证了所估计的模糊核的准确性。
它的实验方式是,将Bicubic下采样后的低分辨图像作为GT(可见,Bicubic插值除了由下采样作用,还带有模糊的效果),然后本文估计的模糊核联合一个下采样操作(具体实现方式文中没有提及),其输出作为预测的低分辨图像,两者求PSNR和SSIM进行比较。由此可见,算法估计的模糊核更接近真实的Bicubic核(从最后一张图看更直观,真实的Bicubic核可以参见文章[2])。
Deep Blind Video Super-resolution_第7张图片

Deep Blind Video Super-resolution_第8张图片

[1]Qi Shan, Zhaorong Li, Jiaya Jia, and Chi-Keung Tang. Fast image/video upsampling. ACM TOG, 27(5):153:1–153:7, 2008. 5
[2]Netalee Efrat, Daniel Glasner, Alexander Apartsin, Boaz Nadler, and Anat Levin. Accurate blur models vs. image priors in single image super-resolution. In ICCV, pages 2832–2839, 2013. 4, 7

你可能感兴趣的:(超分辨,深度学习)