EDVR:基于可形变卷积的视频恢复、去模糊、超分网络

1. 介绍

这是一篇来自商汤(SenseTime)联合实验室的文章,文章涉及的模型在CVPR NTIRE 2019图像/视频增强竞赛中以较大优势取得第一名,且同时参加了视频超分、去模糊等四项任务。

论文:https://arxiv.org/abs/1905.02716
代码:https://github.com/xinntao/EDVR

深度学习在计算机视觉的许多领域取得成功之后,一些学者、工程师备受激励,着手研究了一些用于Low-level任务的深度学习方法,如图像去噪、去模糊等。近年来,同样的任务在视频(多帧图像)处理方面得到了许多学者的关注,但是,早期的研究仅将视频恢复任务看做图像恢复的简单拓展,视频帧与帧之间的冗余信息没能得到充分利用。最近的研究通过更复杂的pipeline将视频恢复任务分为特征提取、对齐、融合以及重新四部分,较好地利用了视频的帧间信息。此时,对齐和融合模块的设计就成了很大的挑战。为了能得到高质量的结果,那么,精确地对齐相邻帧和参考帧、高效地融合对齐后的特征都是非常重要的。

EDVR同样也包括上述的四部分,分别为:PreDeblur Module, PCD Align Module,TSA Fusion Module以及Reconstruction Module。论文中以PCD和TSA两部分为重点进行了阐释。本文会对其余两个模块进行简单的说明。

2. 网络架构

EDVR:基于可形变卷积的视频恢复、去模糊、超分网络_第1张图片
上图是EDVR的网络结构图,其对于超分(SR)任务和去模糊任务有着不同的输入方式。由于SR任务的输入是LR数据,输出是HR,因此,输入图像帧序列会直接喂入网络并经上采样得到HR;对于去模糊任务,图像帧会首先经过下采样层转换为较低的分辨率,依次经过Pre Deblur,PCD Align,TSA Fusion和Reconstruction并上采样得到去模糊之后的图像。接下来将依次阐明四个模块的构成。

3. Pre Deblur模块

该模块是一个金字塔(Pyramid)结构,通过步长为2的卷积层得到,金字塔的每层通过若干个残差块提取特征。

金字塔结构是Encoder-Decoder网络的一个简洁版,而Encoder-Decoder对于图像增强任务(如去噪等)是非常有效的,因此,用这样的结构对输入图像帧进行预去模糊,也是很合理的。需要注意的是,PCD Align Module是在feature级别上对输入图像帧进行对齐,因此,Pre Deblur模块应是对每帧图像分别进行预去模糊,换句话说,该模块对不同的图像帧是共享参数的。

4. PCD Align模块

这部分起,会引入可变性卷积(Deformable Convolution)的概念,如果您尚不清楚这是什么,可参考 Deformable Convolutional Networks详解
EDVR:基于可形变卷积的视频恢复、去模糊、超分网络_第2张图片
PCD Align Module是受到TDAN文章的启发,在feature level运用deformable conv.完成了图像对齐,并有效规避了传统对齐方法中需要显式或者隐式地计算/估计图像光流的问题。对于光流的计算,一般有传统方法和基于深度学习的方法两大类,除了计算量较大之外,还会存在光流估计不准备的情况,而这种情况对于视频增强/恢复任务是万万不能接受的,这会严重影响网络的性能。TDAN提出了一种利用deformable conv.的单一尺度上的特征图对齐方法,EDVR基于TDAN提出了更为鲁棒的PCD模块,采用金字塔结构,实现了coarse-to-fine的图像帧特征图对齐。

如上图所示,输入特征图首先会经步长为2卷积层卷积得到L层的金字塔,对于参考帧 t 和任一相邻帧 t+i,在金字塔的每一层都进行了相似的操作,即:两特征图concat并经过卷积得到deformable conv.的offsets(黄色),t+i 时刻的特征图作为feature输入至deformable conv.,经过deformable conv.输出了t时刻新的特征图;此外,金字塔的下层的offsets会作为上层offset conv.的输入,用于更精确地进行offsets的估计,deformable conv.输出的特征图也会上采样后与上层相应的特征进行融合。直至金字塔的第一层,deformable conv.输出且与底层融合后的feature与参考帧的特征图concat作为新的deformable conv.的offsets的特征图,便可预测到最终的 t+i 时刻对齐的特征图。

5. TSA Fusion模块

在视频恢复任务中,由于手抖、目标运动等一些不可抗拒的原因,会导致不同的图像帧产生不同情况的模糊,因此,不同的相邻帧对于恢复/增强参考帧的贡献也就是不同的。传统的方法通常认为他们有着同等的地位,但是并不是如此。因此,TSA Fusion Module引入Attention机制,在spatial和temporal两个维度给予不同的特征图不同的权重,结构图如下所示:
EDVR:基于可形变卷积的视频恢复、去模糊、超分网络_第3张图片
首先,基于已经对于的特征图,参考帧和相邻帧再次经过不同的卷积层进一步提取特征(对于相邻帧共享参数),并计算相邻帧和参考帧之间的相似度,将其定义为该时刻的temporal attention map。每个时刻的特征图与参考帧特征图都进行这样的操作,包括参考帧,因此每个时刻都会得到一个temporal attenion map,在spatial维度上与对齐的特征图相乘,就相当于调整了不同时刻特征图的恢复/增强任务中所占的比重;接下来,经过Fusion子模块,对所有的特征图进行卷积,即进行了特征融合操作;进一步,通过金字塔结构在不同的scale获取spatial attention map,经过上采样后得到经attention后的feature map.

6. 重建

在该阶段,依旧是通过若干个残差块对融合后的feature进一步进行重建,文中指出,在挑战赛时采用了前后级联相同网络的形式提高性能,前一级网络使用了40个残差块,后一级使用了20个残差块。

参考1:训练细节

3. 最后

你可能感兴趣的:(--,图像画质增强)