TDAN: Temporally Deformable Alignment Network for Video Super-Resolution论文笔记

论文链接

一. 简介

  • 由于相机或物体的运动变化,参考帧和相邻帧之间并不对齐。大多数VSR 选用光流方法来对齐。
  • 基于对齐模型的方法,其性能极大依赖于光流预测的正确性,不准确的光流会导致伪影产生,这些伪影也会传播到重构的HR视频帧中。
  • 作者提出的时间可变形对齐网络(TDAN),无需计算光流,自适应地在特征层面进行对齐。
  • TDAN使用参考帧和每个相邻帧的特征来动态预测采样卷积核的偏移量,用该采样核对相邻帧进行对齐操作。

二. 网络结构

整体框架

TDAN: Temporally Deformable Alignment Network for Video Super-Resolution论文笔记_第1张图片

  • 整体框架包括时间可变形对齐网络和超分网络两部分。
  • 每个相邻帧分别和参考帧一起送入可变形对齐网络,再将得到的特征重建为对应的I i L R ′ _i^{LR'} iLR
  • 将所有的重建的I i L R ′ _i^{LR'} iLR 和参考帧连接后一起作为超分网络的输入。

时间可变形对齐网络

  • 特征提取
    在这里插入图片描述
    网络包含一个卷积层和K 1 _1 1 个残差块,用于提取输入的参考帧和相邻帧的视觉特征。残差块是基于上述图片中模块的修改。

  • 可变形对齐 (简略说明)
    对提取出的参考帧和相邻帧的特征连接,再用瓶颈层减少输入通道;采样参数由卷积层进行预测,生成的卷积核偏移量参数用于可变形卷积中对相邻帧进行特征对齐。

  • 对齐帧重建
    虽然可变形的对齐有可能捕获动作线索,并将特征F i L R _i^{LR} iLR 对齐,但如果没有监督,很难对它进行学习。因此用一个卷积对该特征进行重建得到对齐帧I i L R ′ _i^{LR'} iLR,并利用它与参考帧I t L R _t^{LR} tLR 的对齐损失来进行学习。

超分网络

  • 时间融合
    将参考帧和所有对齐帧连接在一起作为输入,并用3×3 卷积对其进行特征融合。

  • 非线性映射
    非线性映射用K 2 _2 2 个残差块对上述提取特征进行深层特征提取。

  • HR 帧重建
    受EDSR 启发,利用亚像素卷积层对特征进行上采样,最后用一层卷积获取最后的HR 预测帧I t H R ′ _t^{HR'} tHR

三. 实验

数据集

  • 使用Vimeo Super-Resolution dataset 作为训练集,输入选用大小为48×48 的连续5帧;测试集选用Vid4 基准数据集。

方法对比

  • 选用bicubic 下采样方法得到训练LR 视频帧,各种算法再Vid4 数据集上的效果对比 (BI 降解)。
    TDAN: Temporally Deformable Alignment Network for Video Super-Resolution论文笔记_第2张图片
    TDAN: Temporally Deformable Alignment Network for Video Super-Resolution论文笔记_第3张图片
  • 首先通过高斯核模糊HR 帧,然后通过每第s 个位置选取像素进行下采样得到LR 帧,各种算法在Vid4 上对比 (BD降解)。
  • DUF方法不能很好地恢复帧的边界;因此它的PSNR 值低于TDAN。
    在这里插入图片描述
    TDAN: Temporally Deformable Alignment Network for Video Super-Resolution论文笔记_第4张图片

四. 总结和展望

总结

  • 在应用与实际场景时,某张图片SR时TDAN 算法效果比RCAN 单图片超分算法效果差很多。
  • 表明LR 参考帧可以为HR 重建提供充足的细节,因此使用HR视频帧构建一个公开可用的大型VSR 数据集来训练非常深入的VSR架构是值得的。

展望

  • 超分网络中实现时间融合时,简单的用一个卷积层来获取时间融合特征。更先进的时间融合网络可能有助于提升视频超分性能。
  • 在对齐帧重建时,本文使用LR 参考帧作为标签来计算对齐损失,这将使标签带有噪声。可以考虑使用标签噪声下的鲁棒学习算法来进一步改进对齐损失。

你可能感兴趣的:(深度学习,机器学习)