超分论文EDVR解读

《Video Restoration with Enhanced Deformable Convolutional Networks》

视频相邻帧存在一定的抖动,必须先对齐才能进一步处理融合。以往这可以使用光流算法处理,但本文中作者发明了一种新的网络模块PCD 对齐模块,使用Deformable卷积进行视频的对齐,整个过程可以端到端训练。

其中PCD 对齐模块,使用金字塔结构级联的Deformable卷积构建。

早期的研究仅将视频恢复任务看做图像恢复的简单拓展,视频帧与帧之间的冗余信息没能得到充分利用。最近的研究通过更复杂的pipeline将视频恢复任务分为特征提取、对齐、融合以及重新四部分,较好地利用了视频的帧间信息。
此时,对齐和融合模块的设计就成了很大的挑战。为了能得到高质量的结果,那么,精确地对齐相邻帧和参考帧、高效地融合对齐后的特征都是非常重要的。

Pre DeBlur Module
该模块是一个金字塔(Pyramid)结构,通过步长为2的卷积层得到,金字塔的每层通过若干个残差块提取特征。

金字塔结构是Encoder-Decoder网络的一个简洁版,而Encoder-Decoder对于图像增强任务(如去噪等)是非常有效的

PCD Align Module是在feature级别上对输入图像帧进行对齐,因此,Pre Deblur模块应是对每帧图像分别进行预去模糊,换句话说,该模块对不同的图像帧是共享参数的。

PCD Align Module
在feature level运用deformable conv.完成了图像对齐

TDAN提出了一种利用deformable conv.的单一尺度上的特征图对齐方法,EDVR基于TDAN提出了更为鲁棒的PCD模块,采用金字塔结构,实现了coarse-to-fine的图像帧特征图对齐。

输入特征图首先会经步长为2卷积层卷积得到L层的金字塔,

对于参考帧 t 和任一相邻帧 t+i ,在金字塔的每一层都进行了相似的操作,即:两特征图concat并经过卷积得到deformable conv.的offsets(黄色),

t+i 时刻的特征图作为feature输入至deformable conv.,经过deformable conv.输出了 t+i 时刻新的特征图;

此外,金字塔的下层的offsets会作为上层offset conv.的输入,用于更精确地进行offsets的估计,

deformable conv.输出的特征图也会上采样后与上层相应的特征进行融合。

直至金字塔的第一层,deformable conv.输出且与底层融合后的feature与参考帧的特征图concat作为新的deformable conv.的offsets的特征图,便可预测到最终的 t+i 时刻对齐的特征图。

TSA Fusion Module
TSA Fusion Module引入Attention机制,在spatial和temporal两个维度给予不同的特征图不同的权重

经过Fusion子模块,对所有的特征图进行卷积,即进行了特征融合操作;进一步,通过金字塔结构在不同的scale获取spatial attention map,经过上采样后得到经attention后的feature map.

Reconstruction
通过若干个残差块对融合后的feature进一步进行重建,文中指出,在挑战赛时采用了前后级联相同网络的形式提高性能,前一级网络使用了40个残差块,后一级使用了20个残差块。

你可能感兴趣的:(图像处理)