论文阅读 | Video Frame Interpolation with Transformer

前言:CVPR2022一篇用transformer做插帧的文章

Video Frame Interpolation with Transformer

引言

目前做插帧的文章在长距离的场景中效果不佳,作者给的解释是,因为目前做插帧的文章多用的是普通卷积,普通卷积的感受野受限,因而只能关注到局部区域而不太能处理大范围运动。
作者提出了一个基于transformer插帧的文章,提出了一个跨尺度窗注意力,克服了transformer计算量大的困难。这样的设计不仅可以扩大感受野,并且在粗粗度上运动位移更小,为最终的图像合成提供了先验。

网络架构

论文阅读 | Video Frame Interpolation with Transformer_第1张图片
首先,先用光流估计网络估计出后向光流Ot1,Ot0
然后,用特征提取网络提取每层特征F0i,F1i
接下来,用光流warp图像和每层特征送入设计得VFIformer网络合成最终的I0I1和Hδt,再用公式把最终的图像恢复出来
在这里插入图片描述
其中文章的主要设计就是VFIformer网络。

VFIformer网络

输入:原始两张图,warp的图像和每层特征
输出:左右warp图I0I1 和 mask H,残差δt,
论文阅读 | Video Frame Interpolation with Transformer_第2张图片
其中,encoder部分是transformer,即TFB模块,decoder部分是普通的卷积上采样操作
论文阅读 | Video Frame Interpolation with Transformer_第3张图片
其中TFB的结构如下,CSWA即类似的自注意力机制
论文阅读 | Video Frame Interpolation with Transformer_第4张图片
下面介绍这样的跨尺度的自注意力机制
论文阅读 | Video Frame Interpolation with Transformer_第5张图片
可见这样的注意力机制由左右两个支路汇聚成的
左边的支路是自己和自己做做transformer,左边的Q即查询键,自己尺度的滑窗(window), 而K和V都是来自同样的窗口,即窗口内的做transformer。
右边的支路是自己和自己的自尺度做transformer,Q仍然是自己,而K和V是自己的下一层尺度的特征,由于window大小要保持一致,因此作者这里做了用周围像素区域的补全的操作,

(这里我一个很不解的地方就是,这个图下的F代表什么,由于输入有很多支,在这里我姑且猜测,F代表每层的I0、 F0 或I1,F1,然后左右帧warp的图像分开作transformer,分别得到待合成的I0I1)

作者用图示意了这样改进的自注意力机制(CSWA)可以扩大感受野
论文阅读 | Video Frame Interpolation with Transformer_第6张图片

实验

以下是一些实验结果
论文阅读 | Video Frame Interpolation with Transformer_第7张图片
论文阅读 | Video Frame Interpolation with Transformer_第8张图片

总结

看到了第一篇总transfomer插帧的文章,但是还是不够惊喜,要是能对两张图片做transformer,即KQ不来自同一张图片,我会很好奇是什么结果

你可能感兴趣的:(transformer,论文阅读,深度学习)