720P实时超分和强悍的恢复效果:全知视频超分OVSR

720P实时超分和强悍的恢复效果:全知视频超分OVSR_第1张图片
论文连接:https://arxiv.org/pdf/2103.15683.pdf
作者单位:武汉大学、哈尔滨工业大学、武汉工业大学
译者言:本文可以看做是PFNL(同一作者)的续作。LOVSR是将PFNL和混合架构的结合,GOVSR是PFNL和双向混合架构的结合。虽然模型在Vid4上最高可以达到28.41dB,但是训练数据集与大众不同,虽然作者最后也在Vimeo-90K中进行了实验,但是并没有给出在Vid4等测试集上的测试结果,具体数据还得等代码开源后进行额外测试。

看点

滑动窗口方法(a)只能通过增加窗口大小来获得更多的相邻LR帧,而忽略了先前估计的SR输出。循环(b)和混合(c)框架只利用了以前的隐藏状态,不能利用后续帧来帮助恢复。720P实时超分和强悍的恢复效果:全知视频超分OVSR_第2张图片

本文提出了一个全知框架(OVSR),不仅可以利用前面的SR输出,还可以利用现在和将来的SR输出。所提出的全知框架可以进一步分为两类:局部全知(LOVSR)(d)和全局全知(GOVSR)(e)。局部全知框架单向处理视频帧,而全局全知框架双向处理视频帧。全局全知框架允许LR帧从同视频的所有帧中接收信息,但是它不适用于实时超分,而局部全知框架适合。
720P实时超分和强悍的恢复效果:全知视频超分OVSR_第3张图片

方法

OVSR overview

如(d)和(e)所示,OVSR框架主要包含两个子网络:前驱网络 N e t p Net_p Netp后继网络 N e t s Net_s Nets N e t p Net_p Netp首先通过LR帧生成 S R p {SR}_p SRp帧和所有时间步长的隐藏状态,然后 N e t s Net_s Nets借助相应的LR帧和估计的隐藏状态重构所有 S R s SR_s SRs帧。最后将前导和后继产生的SR帧进行细化,重建最终的SR输出。
LOVSR的 N e t p Net_p Netp N e t s Net_s Nets在同一个时间方向上处理视频,这意味着它只能利用过去和现在的信息,以及未来有限数量的帧。反转 N e t p Net_p Netp的方向来设计GOVSR,任何LR帧都可以访问同一视频序列中的所有帧。

网络结构

为了将PFRB与全知框架相结合,本文对PFRB进行了改进,使其包含3个通道,如下图所示:
720P实时超分和强悍的恢复效果:全知视频超分OVSR_第4张图片
N e t s Net_s Nets首先采用一个卷积层来融合相应的LR帧 I t L R I_t^{LR} ItLR和隐藏状态 H t H_t Ht。途中3个特征通道分别包含了过去、现在和未来的信息。然后,在残差块(作者自定义)中,分别提取这3个通道的特征并将其合并在一起。在网络的末端,来自这3个通道的特征被卷积层处理以获得隐藏状态 H t s H_t^s Hts。最后将 H t s H_t^s Hts放大到 I t S R s I^{SR_s}_t ItSRs,和来自 N e t p Net_p Netp的SR帧相加以重构最终的SR输出。其中,上采样模块由2个卷积层组成,每个卷积层后跟一个sub-pixel卷积操作。 N e t p Net_p Netp的结构与 N e t s Net_s Nets相差不大,具体如上图。 N e t p Net_p Netp的过程可以描述为:
在这里插入图片描述
注意,在GOVSR中为 H t + 1 p H^p_{t+1} Ht+1p,而LOVSR应为 H t − 1 p H^p_{t-1} Ht1p N e t s Net_s Nets的过程可以描述为:
在这里插入图片描述
由于两个网络结构相似,本文人为的定义 N e t p Net_p Netp主要学习低频结构, N e t s Net_s Nets主要学习帧内的高频细节。使用Charbonnier损失函数来进行制约:
在这里插入图片描述
α用来调整 N e t p Net_p Netp的权重。

实验

消融实验

不同权重α的消融实验:
720P实时超分和强悍的恢复效果:全知视频超分OVSR_第5张图片
不同残差块数量的消融实验:
720P实时超分和强悍的恢复效果:全知视频超分OVSR_第6张图片

量化评估

作者在MM522数据集上重新实现这些VSR方法,在Vid4上的量化评估:
720P实时超分和强悍的恢复效果:全知视频超分OVSR_第7张图片
使用Vimeo-90K数据集进行训练,然后在Vimeo-90K-T上的测试量化评估,低于BasicVSR
720P实时超分和强悍的恢复效果:全知视频超分OVSR_第8张图片
超分速度和参数量等实验如下图,本文提出的最轻量的模型可以在720P的视频中完成实时超分。
720P实时超分和强悍的恢复效果:全知视频超分OVSR_第9张图片

你可能感兴趣的:(投稿文章,人工智能,深度学习,计算机视觉)