《论文阅读》Video Super-resolution with Temporal Group Attention

留个笔记自用

Video Super-resolution with Temporal Group Attention

做什么

Video super-resolution视频超分辨,经典应用,低分辨率的图片在放大后必然是模糊的,超分辨做的便是将低分辨的图片转化成高分辨率的图片并且做到清晰。
《论文阅读》Video Super-resolution with Temporal Group Attention_第1张图片
这里的视频超分辨也是同样一个意思,不过将图片转换成了视频的某个部分,但这里有所增加的依靠便是视频存在着上下帧。
《论文阅读》Video Super-resolution with Temporal Group Attention_第2张图片

做了什么

《论文阅读》Video Super-resolution with Temporal Group Attention_第3张图片
简单来说就是针对不同的帧速率融合时空信息,获得了更细致的前后相关的纹理,还应对了大运动的特殊情况
《论文阅读》Video Super-resolution with Temporal Group Attention_第4张图片

怎么做

《论文阅读》Video Super-resolution with Temporal Group Attention_第5张图片
整体结构分为四个部分,Temporal Grouping部分、Fusion部分、upsample部分、Fast Spatial Alignment部分,输入为一串视频序列
在这里插入图片描述
将序列分为三个部分,参考帧、前相邻帧、后相邻帧,整体的作用是通过前后相邻帧的时空信息来重建参考帧,如图中的示例为7帧,这时候可以将其第四帧作为参考帧,1-3作为前相邻帧,5-7作为后相邻帧。总而言之,总帧数为2N+1,前相邻帧为N,后相邻帧为N,参考帧为1
《论文阅读》Video Super-resolution with Temporal Group Attention_第6张图片
首先是Temporal Grouping和Fusion部分
《论文阅读》Video Super-resolution with Temporal Group Attention_第7张图片
这部分的输入为2N+1的帧序列,这时候保证参考帧存在的情况下,其他帧根据与参考帧的距离分为N组,即与参考帧距离为1,2,3,…N(这里N=3)
《论文阅读》Video Super-resolution with Temporal Group Attention_第8张图片
然后是fusion部分,首先是对N个不同dilation的帧序列进行intra-group fusion,这里的fusion是为了对每组的特征提取,每个模块的结构都相同,均为3×3卷积+BN+3×3×3的3D卷积和dense等组成。值得注意的是这里的卷积使用的是空洞卷积,空洞卷积的dilation和每组的dilation相同,至于空洞卷积前面学过空洞卷积
然后是inter-group fusion部分,这部分是为了整合上面module得到的不同组的特征,输入就是特征,这里标记符号位Fng,对每个Fng进行一次3×3卷积后得到这一module的输入Fna,然后将所有组的特征concatenate起来后对每个位置进行softmax操作,得到对应的M1-MN,这一步是为了得到每个像素的时序attention
《论文阅读》Video Super-resolution with Temporal Group Attention_第9张图片
在这里插入图片描述
然后将M结合特征Fng得到attention后的特征
在这里插入图片描述
最后便是把这成熟的N个特征进行整合,首先先看下这里的整合结构
《论文阅读》Video Super-resolution with Temporal Group Attention_第10张图片
上面M1和F1g即为上面的attention map和特征,逐元素相乘后得到Fna,将所有的Fna堆叠起来,然后经过一个3D卷积来变化通道,同时也对所有组特征进行整合。然后再经过类似结构的2D block来进行进一步融合,称之最后得到的featuer为integrated feature。
然后是upsample部分
《论文阅读》Video Super-resolution with Temporal Group Attention_第11张图片
这部分的输入是前面的integrated feature,经过一个depth-to-space的操作将所有特征转化到一张图上,这张图即为Residual Map Rt,将这张图和对参考图的双三次上采样的结果融合得到最后的结果图。
这里的depth-to-space操作的意思通俗易懂些,就是把输入为[batch, height, width, channels]形式的Tensor,其在depth维的值将移至height和width维的
最后是Fast Spatial Alignment即空间对齐部分
《论文阅读》Video Super-resolution with Temporal Group Attention_第12张图片
这部分主要是为了解决上面不太好解决的一个问题,就是运动较大的时候
《论文阅读》Video Super-resolution with Temporal Group Attention_第13张图片
这里的做法暂时还未理解,大致意思是先使用SIFT等方法计算图片的兴趣点,然后使用兴趣点来计算图片的单应性,针对相邻的帧采取扭曲防止运动过大
在这里插入图片描述

总结

1.除了时空对齐部分没有什么特殊的地方,再次见到了空洞卷积
2.这种分层的方法太过耗时,若2N+1的N特别大的话,将会分出太多的branch,直观感受可以改造网络成只有几个自适应的dilation会更好

你可能感兴趣的:(计算机视觉,深度学习,计算机视觉,深度学习)