Video Super-resolution with Temporal Group Attention

发表在CVPR2020。

Video Super-resolution with Temporal Group Attention_第1张图片

主要工作:将连续的视频帧根据时间间隔分为多组,然后通过一个注意力模块和组间融合模块进行集成,同时,为了对齐大尺度运动的视频帧,采取了与以往基于光流或者可变卷积不同的对齐方式,本文采用的是计算两个连续帧之间的单应性矩阵,然后将邻帧扭曲到参考帧。 

整体架构

Video Super-resolution with Temporal Group Attention_第2张图片

组内融合模块(Intra-group Fusion Module)

包括三个部分,第一部分有3个单元作为空间特征提取,每个单元由一个3x3卷积层、BN和ReLU组成,每个卷积层根据不同的帧率采用不同的扩张率,主要是基于帧的时间间隔大,运动幅度也比较大,反之运动幅度较小;第二部分使用3x3x3的3D卷积用于时空特征融合;最后每组产生的组级别融合特征采用2D dense block里面的18个2D单元,用于进一步整合组内帧信息。

组间融合模块 (Inter-group Fusion Module)

由于邻帧与参考帧更加相似,慢帧率的组级别特征会有较丰富的信息,而快帧率的组级别特征会捕捉一些邻帧丢失的细节信息, 时间注意力作为一种指导,有效地整合不同时间间隔组的特征。

Video Super-resolution with Temporal Group Attention_第3张图片

 

Video Super-resolution with Temporal Group Attention_第4张图片

Fast spatial alignment (homography)

Video Super-resolution with Temporal Group Attention_第5张图片

Remark:本文的整体思路和EDVR相似,都是先对帧进行对齐,然后进行特征提取和融合,采用的时间注意力也和EDVR类似。单应性的方式与光流相比,可能会比较少地引入像素级别的失真,同时本文在关键点采集较少或者在变换后与原帧差别较大的情况下,采用了退出机制,以提高鲁棒性。

你可能感兴趣的:(Paper,Reading)