Real-Time Single Image and Video Super-Resolution Using an efficient Sub-Pixel CNN(论文笔记)

 

This paper proposes a novel convolutional neural network architecture where the feature maps are extracted in the low resolution space to reduce the computational complexity.

Main points of strength:

  1. In this paper, they demonstrated that the recent methods, the super-resolution operation is performed in high resolution space, is sub-optimal and adds computational complexity.
  2. And they present the first convolutional neural network (CNN) capable of real-time SR of 1080p videos on a single K2 GPU. To achieve this, they proposed a novel CNN architecture where the feature maps are extracted in the low resolution space.
  3. In addition, they introduce an efficient sub-pixel convolution layer which learns an array of upscaling filters to upscale the final LR feature maps into the HR output.

contribution:

1.upscaling由network最后一层处理,也就表示每各LR图像可以从network中之间得到反馈并在LR空间里中进行特种提取。(减少计算和存储器的复杂度)

2.对于具有L层的网络,我们学习nL-1特征映射的nL-1升级滤波器,而不是输入图像的一个升频滤波器。此外,不使用显式插值滤波器意味着网络隐式地学习SR所需的处理。因此,与在第一层的单个固定滤波器放大相比,网络能够学习更好和更复杂的LR到HR映射。这导致模型的重建精度的额外增益

conclusion:

所提出的模型实现了最先进的性能,几乎是一个数量级比之前发布的图像和视频方法更快。

证明了第一层的固定滤波器升级不能为SISR提供任何额外信息,但需要更多的计算复杂性。 为了解决这个问题,我们建议在LR空间而不是HR空间中执行特征提取阶段。 为此,我们提出了一种新颖的亚像素卷积层,与去卷积层相比,它能够以非常小的额外计算成本将LR数据超解析为HR空间。 在升级因子为4的扩展基准标记数据集上进行的评估表明,与之前的CNN方法相比,我们具有显着的速度(> 10倍)和性能(图像上的+ 0.15dB和视频上的+ 0.39dB)增强 参数(5-3-3 vs 9-5-5)。 这使我们的模型成为第一个能够在单个GPU上实时生成SR高清视频的CNN模型。

 

 

SISR(single image super-resolution ):从单个LR(low resolution)输入图像中恢复HR(high resolution)图像。

最近在处理SISR问题方面蓬勃发展的一系列方法是基于稀疏性的技术。稀疏编码是一种有效的机制,假设任何自然图像可以在变换域中稀疏地表示。基于稀疏性技术的缺点是通过非线性重建引入稀疏性约束通常在计算上是昂贵的。

另一种流行的方法是在网络的第一层之前或之前增加分辨率。然而,这种方法有许多缺点。首先,在图像增强步骤之前增加LR图像的分辨率增加了计算复杂度。这对于卷积网络尤其成问题,其中处理速度直接取决于输入图像分辨率。其次,通常用于完成任务的插值方法,如双三次插值,不会带来额外的信息来解决不适定的重建问题。

在本文中,与以前的工作相反,建议仅在网络的最末端将分辨率从LR增加到HR,并从LR特征图中超级解析HR数据。这消除了以更大的HR分辨率执行大部分SR操作的需要。为此,提出了一个更有效的子像素卷积层来学习图像和视频超分辨率的放大操作。

双三次插值(英语:Bicubic interpolation)是二维空间中最常用的插值方法。在这种方法中,函数f在点 (x,y) 的值可以通过矩形网格中最近的十六个采样点的加权平均得到,在这里需要使用两个多项式插值三次函数,每个方向使用一个。显然,无论技术多么高级,插补过的数据肯定没有原始数据准确。这意味着对一个图形文件进行插值处理后,虽然文件长度增加了(数据量增大),但不会有原先那幅图锐利,可能会在图形质量上打折扣。

最小均方差MSE

你可能感兴趣的:(Real-Time Single Image and Video Super-Resolution Using an efficient Sub-Pixel CNN(论文笔记))