Fast Spatio-Temporal Residual Network for Video Super-Resolution

发表在CVPR2019。

针对的问题:

  1. 为了自动地和同时地挖掘视频的时空信息,可以使用3D卷积。但是3D卷积会带来更多的参数量和计算复杂度;
  2. 残差恒等映射的大量使用增加了计算复杂度和模型负担.

主要工作:

  1. 快速时空残差网络(FSTRN);
  2. 快速时空残差块(FRB);
  3. 全局残差学习(GRL),包含LR空间残差学习(LRL)以及跨空间残差学习(CRL)

FSTRN:

网络结构:

Fast Spatio-Temporal Residual Network for Video Super-Resolution_第1张图片

 包含四个模块:LR视频浅层特征提取网络(LFENet),快速时空残差块(FRBs),LR特征融合和上采用SR网络(LSRNet),全局残差学习部分(GRL)。

LEFNet:简单地使用C3D层从LR视频提取特征:

FRBs: 提取从LEFNet输出的时空特征

 在FRBs时,使用LR空间残差学习(LRL)去提升LR空间的特征学习:

 LSRNet:用于在LRL之后获得超分的视频,先使用C3D进行特征融合,然后使用反卷积进行上缩放,再用一个C3D用于特征图通道调优。

 最后将F^{L}_{SR}以及从LR到HR空间的全局残差相加得到最后的输出:

快速时空残差块

Fast Spatio-Temporal Residual Network for Video Super-Resolution_第2张图片

 与EDSR相同的是都去除了BN和相加后的ReLU,不同的是将卷积换为了3D卷积,并且将ReLU置于卷积前面,而本文提出的FRB则是将ReLU换为了PReLU,以及将k*k*k的3D卷积分解为两个1*k*k和k*1*1的3D卷积,减少了计算量。

 全局残差学习:包含两个部分,LR空间残差学习和跨空间残差学习。

LR空间残差学习:用于FRBs模块,

跨空间残差学习: 将LR视频直接通过插值映射到HR空间,

 Loss: 

理论分析:有时间再补上 :)

你可能感兴趣的:(Paper,Reading)