ESPCN:基于高效的亚像素卷积神经网络的实时单张图片与视频超分表率重构

Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network

我挑选了论文中最有趣的部分翻译并加上了自己的理解

Abstract

最近,几种基于深度神经网络的单张图片超分辨率重构方法在重构精确度和计算性能上都取得了突破性的进步。在那些方法中,输入的低分辨图像(LR)在使用一个简单的滤波器后,被upscale到高分辨率(HR)图像,通常在重建前还会对输入图片双三次插值(bicubic)。这意味着超分重建(SR)是操作在HR空间的。我们证明了,这是一种不太好的(sub-optiomal)和增加计算复杂性的方法。 在这篇文章中,我们提出了一个新颖的构建CNN结构方式,其主要的新颖点在:

  • 特征图直接从LR空间提取
  • 加入子像素卷积层,用于学习LR到HR的映射。

通过这样做,我们替代了之前复杂的手工设计的bicubic操作,此外,还减少了SR的整体计算复杂度。

Introdiction

SR的应用场景十分丰富,在计算机视觉届也是一大热点。目前,SR问题都是基于这样一个假设:LR是由HR进行下采样、加入噪声或经过低通道过滤器处理所产生的。这是一个极度不适定问题(ill-posed problem)。在HR到LR的处理过程中,会丢失高频信息,此外,SR是解不唯一的问题,这意味着各个解决方案是有优劣性的。在SR处理技术中,还有一个关键的假设:高频信息是我们重建的重点并且它是冗余的。基于这个假设,我们认为HR在处理成LR后,我们也能从LR中重建出高频信息。因此,SR可以被视为推理问题。个人来看,怎么就被视为推理问题了,文章没有详细说明。

现在的SR技术主要分为两种,一种是多张LR重建出一张HR。另一种是一张LR重建出一张HR,他们各有优缺点。本文着重的就是后者。

Related Work

这部分介绍了SR问题现有的各种解决方案。

Motivations and contributions

这部分首先介绍了这个领域研究热点:CNN在SR领域发展势头很猛,它还有很大的作为。然后介绍研究的趋势:在输入网络之前或第一层网络就尝试提高图片的分辨率,这样以来就增加了整个过程的计算复杂度,影响SR的速度,此外使用这种输入前就提高分辨率的手段,比如bicubic,这并不能为SR这不适定问题带来有用的信息。
我们注意到,网络自己学习的超分过滤器(upscaling filters)仅仅在一个论文中提到过,更重要得是大家没有完全的把它整合到现有的SR技术中,这种过滤器技术也鲜有人去研究。此外,没有一个有效的卷积层能处理好输出的尺寸大于输入尺寸的情况,同时现有的技术对这种操作也没有有效的支持。 作者后面一个观点其实是想说:反卷积技术目前还没应用于SR领域。
好了,本文就是来解决这个问题的,同时我们的解决它们后SR的效果有了明显的提高。本文的主要贡献如下:

  • 我们在网络的最后一层加入了超分过滤器(upscaling filters)。我们的特征图直接从LR种提取。输入图像的分辨率降低、更小的滤波器尺寸,为整个SR过程的性能带来了足够的提升,使得我们的可以做到实时的 HD 视频重建。
  • 对于多层网络,我们学习多个超分滤波器(upscaling fliter)。我们不显示的使用插值滤波器,而是依赖神经网络的学习能力,在网络的第一层,让它去自适应的习得一个灵活的滤波器。

本文的方法所取得效果如下:
ESPCN:基于高效的亚像素卷积神经网络的实时单张图片与视频超分表率重构_第1张图片

Method

网络解构如下图:
ESPCN:基于高效的亚像素卷积神经网络的实时单张图片与视频超分表率重构_第2张图片
网络由两部分组成:普通卷积层、sub-pixel卷积层。普通卷层不再赘述。有意思的本文的su-pixel卷积层,也就是反卷积(Deconvolution)。

Deconverlution layer

反卷积是常用于恢复经过最大池化或其他下采样后的图片分辨率。作者这里分析了一般的反卷积操作和他的sub piexl卷积的不同,他提出的这种卷积十分高效。它的公式分析,暂时没弄太清楚,这里给出几个链接,供大家阅读:

  • sub piexl卷积的实现:这里
  • 转置卷积&sub piexl卷积的详细讲解:这里

你可能感兴趣的:(机器学习,超分辨率重建,深度学习)