Quality Enhancement Network via Multi-Reconstruction Recursive Residual Learning for Video Coding...

论文名称：Quality Enhancement Network via Multi-Reconstruction Recursive Residual Learning for Video Coding
论文作者：Liangwei Yu, Liquan Shen , Hao Yang, Lu Wang, and Ping An

摘要—压缩压缩算法引入了多种压缩伪像，这些伪像会严重降低视觉质量。这些压缩伪像与纹理内容高度相关，并且分层编码单元决策结构也为这些伪像带来了多尺度相似性。电流环路滤波器无法利用这些特性来全面消除压缩伪像。为此，该论文提出了一种通过采用多重建递归残差网络（MRRN）来提高质量的新颖方法。特别地，修改后的递归残差结构被设计为捕获压缩伪像的多尺度相似性。为了有效地增强具有不均匀噪声的帧，提出了一种多重构结构，该结构输出具有不同降噪比的图像并自适应地融合它们。实验结果表明，在高效视频编码中，与原始的环路滤波器相比，所提出的MRRN可以将编码效率提高15.1％。平均而言，所有帧内，低延迟P和低延迟B的BD速率均降低了6.7％，7.8％，7.6％。同时，作为在编码器侧执行的质量增强方法，与最新方法相比，MRRN还实现了编码性能和计算复杂度之间的良好平衡。

1、介绍

由于出色的压缩率，压缩算法在多种时间应用中得到了广泛使用。但是，有损压缩算法会引入多个压缩伪像，例如块伪像，模糊和振铃效果。这些复杂的失真伪像会导致非自然的边缘和模糊的细节，从而严重降低多媒体的视觉质量。为了消除这些压缩伪像，在高效视频编码（HEVC）[3]中采用了解块滤波器[1]和样本自适应偏移（SAO）[2]。解块滤波器设计用于平滑由块编码技术引起的不自然边缘，并且SAO直接将偏移添加到重构样本中，以减少像振铃效应一样的样本失真。尽管它们具有出色的降噪性能，但解块滤波器往往会模糊细节，并且SAO需要额外的位来消除振铃效果。

为了更有效地提高重建质量，近年来已经讨论了几种先进的方法。刘等。[4] 提出了一种基于混合图拉普拉斯正则化回归的图像恢复方法。后来，张等人。 [5]提出了一种利用图像非局部先验知识来减少压缩噪声的非局部自适应环路滤波器（NALF）。这些方法依赖于经验模型，例如自相似性和低秩先验模型，它们对于不同类型的噪声或各种图像内容不稳定。

受到CNN模型在图像质量增强方面的最新进展的启发[6]，[7]，提出了几种基于CNN的算法来提高解码视频的感知质量。Wang等人[8]。使用基于自动解码器结构的CNN网络提高压缩的HEVC视频的质量。徐等。 [9]提出了一种多帧质量增强（MFQE）框架，该框架进一步利用多帧信息来增强压缩视频。为了控制提高质量的时间，Yang等人。 [10]介绍了两个用于增强I和P帧的有效质量增强网络（QE-CNN）。尽管实现了令人鼓舞的性能，但是这些方法是在解码器侧执行的，无法减少用于降低比特率的预测误差。为了解决这个问题，戴等人。 [11]提出了一个可变滤波器大小的残差学习卷积神经网络（VRCNN），并将其嵌入到HEVC中，以替换编码器端的原始环路滤波器。张等。 [12]采用高速公路单位来建立一个更深的网络，称为RHCNN，以更好地减少压缩伪影。

尽管这些基于CNN的质量增强方法在减少压缩伪影方面取得了显著成果，但仍有两个问题需要解决。首先，由可变大小的分区结构引起的压缩伪像具有多尺度相似性。例如，HEVC采用编码树单元将帧划分为多尺寸编码单元（CU），而先前的标准仅具有固定的编码块。因此，HEVC的块伪像在不同比例下共享相似的结构。以前，大多数基于CNN的HEVC质量增强方法主要是为了构建一个具有更好表达能力的更深层网络，而没有考虑利用压缩伪像的多尺度相似性。第二，这些压缩伪像非常不均匀，其分布与内容复杂性有关。在HEVC中，焦点区域倾向于被划分为小的CU，并且相应的压缩伪影也很小且密集。相反，平坦的背景会被较大的CU压缩，并且压缩伪影会很大且稀疏。不幸的是，当前基于CNN的方法会统一生成输出，无法为不同的内容提供最佳的降噪强度。因此，仍然存在进一步改善质量的空间。

为了克服上述缺点，该论文在编码器端提出了一种高效的基于CNN的质量增强网络，称为多重建循环残留网络（MRRN）。它首先采用递归残差结构来提取压缩伪影的特征，包括多尺度相似度。然后，将高维特征输入到重建模块中，以递归方式生成具有不同降噪比的重建图像。还训练了该重建模块以融合这些去噪的图像以实现与内容有关的恢复。据我们所知，这是将递归结构和残差结构相结合以消除压缩伪影而又不增加任何内存成本的首次创新尝试。

这项工作的主要贡献包括：（1）设计有效的递归残差学习结构，以捕获压缩伪像的特征，尤其是多尺度相似性；（2）设计了多种重构结构，以自适应地增强具有不均匀噪声的图像；（3）提出了一种新的基于编码器端CNN的质量增强方法，以提高重建质量并减少预测误差，并以较小的存储成本和较快的处理速度。

2、方法设计

1，MRRN的结构

结构展示

MRRN由四个模块组成，包括特征提取，特征增强，映射和重建，如图1所示。特征提取模块将输入图像x表示为几个高维特征图。注意，它直接从像素域中提取特征，因此在特征提取模块中采用了相对较大的卷积层以扩大接收场。具体而言，提取函数表示为f0，

其中F0是提取的特征图。这些特征图不仅具有有用的重建信息，而且还包含压缩伪像的特征。因此，将F0传递到特征增强和映射模块，以进一步提取有价值的特征以进行重建。这个过程可以表示如下，

其中r表示递归结构的迭代，并且映射模块具有类似的公式。
在将噪声特征映射到包含最有价值信息以进行恢复的清晰特征图之后，重建模块以递归方式重建几个具有不同降噪比的清晰图像并将其融合以生成高质量的重建图像。该过程可以如下所示，

其中F^r₃是递归r的重构，F_final是最终的输出帧，Wr是融合权重，这些权重是网络自动学习的

2,递归残差结构

图2：残差递归结构

残差结构，递归结构和我们提出的结构如图2所示。图2（a）中的残差学习[13]在输入和输出之间有一条捷径，可以加快学习过程。但是，仅凭一条捷径进行的残差学习就没有扩大接受领域的能力。图2（b）中的递归结构[14]在不同的卷积层之间共享相同的权重，以减少可能容易出现梯度消失或爆炸的存储成本。与先前的结构不同，我们在图2（c）中提出的递归残差结构的输入被添加到下一个循环中，以提供先前循环的特征信息。因此，不同级别的特征被合并以提高学习性能，同时具有快速的收敛速度和较大的接收范围。

表1

捕获多尺度相似度。如上所述，在训练过程中需要捕获压缩伪像的多尺度相似性。因此，在特征提取和映射模块中采用了两种有效的结构。首先，[11]中介绍的可变大小过滤器通过将大型过滤器替换为几个相应的小过滤器来进行改进，以降低参数成本并提高表达能力。第二，采用我们提出的递归残差结构来完全覆盖CU大小的范围，并合并不同级别的特征以捕获多尺度相似度。进行了比较实验，以评估递归残差结构的效果。将两个网络设计为控制组，分别采用残差和递归结构形成其特征提取和映射模块。表I显示了在低延迟P（LDP）配置且量化参数（QP）等于37的情况下的最大和平均PSNR增益。可以观察到，我们提出的递归残差结构具有最高的增强性能。

控制参数量。受更深，更好的思想启发[15]，一些已发表的著作采用了更深的网络来获得更大的接受场[16]-[18]。然而，参数数量的增加导致存储和计算上的巨大负担，这不适用于编码器侧质量增强方法。例如，VRCNN具有针对某个QP的54512个参数。最新提出的RHCNN具有针对一个网络的3355685个参数，是VRCNN的60倍。可以看出，当采用更大，更深的网络时，参数数量将急剧增加。因此，期望考虑设计具有足够学习能力的光网络。在MRRN中执行两个步骤以减少参数数量。首先，对可变大小的过滤器进行了改进，增加了小型过滤器，以减轻额外的计算负担。其次，特征增强和映射模块在不同层之间共享相同的权重，并且不需要额外的内存消耗。表II中显示了我们的MRRN的参数详细信息。

表2

3，多重重建结构

先前的质量增强网络主要采用单路径结构。因此，重建图像被统一生成，并且不同的内容共享相似的降噪比。但是，不同的内容不会遭受如上所述的相同的噪声退化。为此，将多重构结构引入重构模块中。它递归地接收高维特征，并重建具有不同降噪比的图像。还对该多重重建结构进行了训练，以合并这些多个输出，以生成具有自适应增强度的一个图像。

为了研究这种多重重构结构的效果，我们评估了中间重构的性能以及每个递归的融合输出，如图3所示。在不同的中间重构中，第三次递归实现了最佳性能。早期的递归不能很好地消除压缩伪像，而后期的递归会丢失大多数细节。这些单独的重构都无法比融合输出更好地提高质量。可以看出，递归时间的增加可以提高融合输出的性能。原因是双重的。首先，即使第三次递归后的重建不能达到最佳的降噪性能，它们也为合并的输出提供了有价值的信息，以消除严重的压缩伪像。其次，递归时间的增加会扩大接受范围。当递归时间大于5时，在我们的实验中观察不到更多的性能提升，并且会增加计算量。因此，我们将递归时间设置为5，这是效率和有效性之间的平衡选择。

图3：中间重构和容和输出的比较

4，训练集

VRCNN采用伯克利分割数据集500（BSDS500）图像数据集[19]作为训练集，而RHCNN从HEVC和AVC数据库中选择15个标准视频序列来生成训练集。与视频数据集相比，图像数据集保留更多不同的细节，并可以训练出更稳定和高性能的网络。但是，图像数据集缺少时间相关性。不适合在视频增强训练中采用。因此，本文采用了灵活的训练集选择策略。选择BSDS500来增强I帧。选择BSDS500中的300张图像进行训练，并选择其他200张图像进行测试。使用折叠，旋转和镜像将每个图像扩展为8个图像。所有图像均在全帧内（AI）配置下通过HEVC测试模型（HM）进行压缩。为了进行帧间增强，从网站[20]中选择了18种具有不同分辨率的视频作为数据集。请注意，为了公平评估，这18个视频中没有一个重叠了HEVC测试序列。选择了十四个视频作为训练集，其他四个作为测试集。 HM编码器在LDP和低延迟B（LDB）配置下压缩每个序列。

3、实验细节和结果

在训练阶段，将QP的学习率37在前20个时期中设置为0.001，然后在每10个时期中除以10。对于等于22、27和32的QP，从QP 37的网络初始化网络。我们的网络使用NVIDIA GTX1080 GPU根据MatConvNet [21]程序包进行了培训和测试。
MRRN在HM16.12上的JCT-VC [22]推荐的序列上进行了测试。 AI，LDP和LDB配置分别使用相应的网络进行测试。 BD率[23]用于评估压缩伪像的降低性能。为了减轻增强参考帧的累积效果并加快编码过程，在P和B帧中采用3的增强间隔。

表III显示了在不同配置下MRRN的BD速率降低结果。对于AI，LDP和LDB配置，平均BD率分别降低了6.7％，7.8％和7.6％。将实验结果与其他三种先进方法进行了比较，包括VRCNN [11]，RHCNN [12]和QE-CNN [10]，这两种方法都经过重新训练并在HM16.12上实现。比较结果示于表IV。很明显，MRRN在不同类别的视频和不同配置中实现了最高的BD速率降低。

表3

由于编码器端的质量增强方法对存储器成本和计算消耗敏感，因此在不同方法之间进一步分析了模型的复杂性和计算复杂性。表V列出了包括VRCNN [11]，RHCNN [12]，QE-CNN [10]和我们的MRRN在内的四个网络的参数编号。值得注意的是，RHCNN，QE-CNN和我们的网络训练不同的模型用于不同的编码配置。由于编码在应用中更加实用，因此仅列出了为增强P帧而设计的网络的参数编号。可以看出，与其他方法相比，MRRN不仅实现了最佳的增强性能，而且具有最小的模型复杂度。在MRRN，RHCNN [12]和现有技术的NALF [5]之间比较编码/解码时间。表VI示出了不同方法的平均编码/解码复杂度比。该比率由σ=Γ/ T计算，其中Γ是对每种方法进行积分的HM 16.12的编码/解码时间，而T是原始编码/解码时间。 MRRN的编码/解码复杂度比率已在Intel i7-6700k CPU和GeForce GTX 1080 GPU上进行了测试。 NALF和RHCNN的复杂度比率是从作者的论文中获得的。可以看出，MRRN的计算成本低于RHCNN。尽管MRRN是基于CNN的网络，但是与没有GPU加速的NALF相比，它仍然具有可接受的计算成本。从表VI中可以看出，由于LD配置比AI消耗更多的编码时间，因此LD的编码时间与原始时间之比远小于AI。

表5

4，结论

我们提出了一种多重构递归残差学习网络，以提高视频编码的质量。为了充分捕捉压缩伪像的特征，尤其是多尺度相似度并实现高质量的重建，引入了递归残差结构和多重重建结构。实验结果表明，与其他最新方法相比，所提出的MRRN网络具有更好的增强性能，具有更少的参数数量和更高的计算效率。将来，我们将对提高我们的方法的计算效率并将其扩展以提高多视图视频和3D-HEVC的质量进行更多的研究[24]，[25]。