论文翻译:Residue guided loop filter for HEVC post processing

简介

摘要—混合编码框架中基于块的编码结构产生了明显的伪像,例如阻塞,振铃等。 最近,一些基于卷积神经网络(CNN)的工作将重构作为减少伪像的唯一输入。 尽管这些依靠强大学习能力的作品的性能超过了高效视频编码(HEVC)标准中基于环路滤波器的传统方法,但是如何增强高频信号仍然没有解决。 除了重建之外,我们首先建议使用残差作为基于CNN的环路滤波器的其他输入。 本质上,作为高频指示符的残留信号会引导CNN增强高频信号,例如尖锐的形状和边缘信息。 其次,我们发现重建信号和残差信号具有不同的特性,应使用不同的网络结构进行处理。 为了进行重构,我们开发了全频率(重构)CNN(AF-CNN),它采用向下采样和向上采样对来学习具有全局信息的所有频率信号。对于残差,我们设计了一个高频(残差)CNN( HF-CNN)定制残差块以适应高频信号信息。 据我们所知,这是将残余信号用作至关重要的独立高频输入来指导基于CNN的环路滤波学习的第一项工作。. 我们在HEVC参考软件中实现提出的算法。 实验结果表明,与当前基于CNN的方案相比,我们提出的分别使用HF-CNN和AF-CNN(RRHA)进行残差和重建双重输入的方法可显着节省BD率。

1、介绍

高效视频编码(HEVC)标准[1]采用基于块的混合编码方案,包括预测,变换,量化和熵编码阶段。基于混合编码框架的基于块的编码技术使HEVC可以有效地对视频中的对象或内容进行编码 。 具体来说,HEVC可以通过基于块的方法以更加灵活的方式对各种纹理进行编码。 尽管基于块的编码具有突出的优点,但它会导致阻塞和振铃伪影。

伪像表示帧中编码块边界的不连续性,严重削弱了帧的主观质量。 由于不同块的变换和量化是独立的编码过程,因此不同种类的块使用具有不同参数的滤波器,因此,不同的过程和参数会导致块边界上残差信号的不连续性。 交流电(AC)的高频率系数会在密集边界和强边界上的这些边界周围引起波纹现象。 这种类型的波纹现象会导致帧质量非常低和用户体验差。 鉴于这些,如何开发一种解决方案以最大程度地减少阻塞和振铃伪影在视频压缩研究中起着重要作用。不幸的是,衰减这些伪影仍然是一项艰巨的任务,因为它是一个复杂的非线性问题。 因此,迫切需要解决这些问题的方法。

为了尽可能减少并修复这些影响,后处理解决方案分为三类,包括传统方法,具有单个输入的基于CNN的方式和具有多个输入的基于CNN的方式。

首先,常规方法是基于环路滤波器的,例如解块滤波器(DF)[2] [3],样本自适应偏移量(SAO)[4] [5] [6]等。DF模块将减少阻塞伪像 .DF过滤预测单元(PU)和转换单元(TU)的8×8块边界。 它包含两个阶段:过滤确定和过滤操作。 SAO将为像素增加偏移量以减少重建误差。 SAO通过选择以编码树块(CTB)为基本单位的自适应分类器对重构像素进行分类。 然后,SAO使用包括边缘偏移量(EO)和频带偏移量(BO)在内的不同类型的补偿值来偏移各种类别的像素。 尽管这些传统方法可以通过低通滤波器或补偿像素值的原理在一定程度上减少块边界的伪影,但它们仍很难有效消除非线性噪声和失真。

为了解决棘手的非线性失真,受卷积神经网络(CNN)的巨大潜力和CNN的广泛应用的启发,第二组后处理方案[7] [8] [9]采用基于CNN的方法 唯一的输入,即重构块。 这种类型的作品将原始帧像素设置为标签。 然后,将重建数据导入CNN后,它可以了解每一层的权重系数和偏差系数。 不仅依赖于卷积层强大的学习能力,而且依赖于像ReLU这样的非线性层的强大非线性优点,与传统方法相比,CNN可以更好地适应重建问题,从而解决了复杂而复杂的问题。 尽管如此,由于缺乏信息多样性,单一输入限制了CNN网络的学习方向。

通过在视频压缩中导入分区信号作为第二输入,基于第三种CNN的多输入方法[10]在某种程度上解决了第二类方法所暴露的缺陷。 同样,他们使用2个输入来开发合理的CNN架构。 一种来自重构帧,另一种来自分区信息。 HEVC的逐块预测将导入分区信息。 因此,此类工作假定我们不应忽略不同PU和帧中的分区变化。 他们发明了分区遮罩的CNN,以获得编码的视频增强功能。

但是,很长一段时间以来,我们从信号处理原理的角度来忽略伪像的主要原因。 产生伪影的主要原因是由于交流高频信息的丢失以及块边界的不连续性。 鉴于这些,有必要增强高频系数以提供丢失的信息。实际上,残差信号是逆变换和逆量化之后的高频信息。 它是暗示HEVC中由于块式视频压缩而丢失的交流高频信息的重要指标。 受多个输入完成的最新工作的启发,我们提出了一种新颖的后处理算法,该算法包括2个独立的网络,分别是增强残差(高频信号)网络和增强重建(全频信号)网络。 据我们所知,这是我们将残余信号用作关键的独立高频输入以指导CNN学习方向的第一项工作。

总体而言,我们将工作的新颖性和贡献概括为两个方面:

首先,我们将残余信号用作高频指示器,指导CNN学习如何增强逐块视频压缩方案遗漏的高频信号。 我们也从信号处理的物理角度研究重建信息。 它由低频信号部分-预测和高频部分-残差组成。 在逆变换和逆量化的处理过程中,残留会丢失一些高频信息。 因此,我们引入残差作为独立输入,这是对全局信息(即重构)的有力增强。

其次,我们提出了采用残差和重构双重输入的方案,其中包括高频和全频子网(RRHA)。 我们创建了两个浅的单独信号CNN,包括高频信号(残余)CNN(即HF-CNN)和全频信号(重构)CNN(即AF-CNN)。 具体来说,我们针对特定目的自定义不同的CNN层,以适应各种网络。 对于HF-CNN,我们使用残差块来拟合高频信号信息,同时开发下采样和上采样对,以学习针对AF-CNN的所有频率输入的全局信息。

我们将本文的其余部分组织如下。 在第二部分中,我们描述了一些相关的工作,包括基于传统环路滤波器的方法,单输入CNN方法和多输入CNN方法对视频压缩的后处理。 第三部分不仅对我们的RRHA进行了全面分析,还对使用通用子网的三元组输入(预测,残差和重建)方法进行了综合分析。 在第四节中,我们报告了我们的方法与基准之间的实验结果的比较。 最后,在第五部分中,我们总结了本文并讨论了未来的工作。

2、相关工作

在本节中,我们简要回顾与视频编码后处理有关的先前工作。 我们首先详细介绍基于环路滤波器的现有传统方法。 然后,我们将以单个重构输入​​详细说明基于CNN的方法。 第三,我们讨论具有多个输入的基于CNN的方案。
A、环路滤波方法
在HEVC的标准化过程中,存在三组后处理方法。

1)去块滤波器(DF) [11]首先设计了一种H.264 AVC视频编码标准采用的自适应解块。 它可以检测,分析块边界上的伪像,并通过选定的过滤器压制这些伪像。 Tsu-Ming等 [2]然后提出了一种高吞吐量的去块滤波器,以减轻阻塞伪影。 在HEVC中,Norkin等人。 [3]设计的DF与H.264 / AVC相比具有更低的复杂度和更好的并行处理能力。

2)样本自适应偏移(SAO)[12] Chien等 提出了自适应环路滤波技术[13]。 根据拉普拉斯能量和重构像素值的分类,此方法会相应地偏移和过滤不同类型的像素。 自适应环路滤波方法获得了良好的增益,但是复杂度很高。 Ken等设计的极值校正滤波器(EXC)和边界校正滤波器(BDC)[14]黄等基于积分框架,开发了边界偏移量(PBO),边界偏移量(PEO)和自适应约束(PAC)[15]。 与BDC划分频带均匀的方法相比[14],PBO的频带划分不均匀。因为PBO中的频带划分基于四叉树。 发明了一种算法[4] [5],该算法从分类方法中自适应地选择一个以补偿不同的块。 上述方法的计算复杂度仍然很高。 傅和陈等。 提出了HEVC采用的样本自适应偏移(SAO)[6] SAO通过补偿像素域中的值来抑制振铃伪影。 与以前的方法相比,它在性能和复杂性之间提供了更好的折衷。

3)自适应环路滤波器(ALF) 蔡等提出了ALF [16],旨在通过利用基于Wiener的自适应滤波器来减少原始帧和解码帧之间的均方误差。 为了获得更好的编码性能,ALF在亮度信号的帧中分别对不同的块采用不同的滤波器。 除了滤波器自适应以外,ALF还可以在编码树单元(CTU)级别上控制滤波器开关,这也有利于提高编码效率。

B、基于cnn的单输入方法

尽管这些传统方法能够在一定程度上抑制伪像,但仍不能令人满意地消除非线性噪声和失真。 为了解决严重的非线性失真,受CNN在低级视频压缩中的巨大潜力的启发,越来越多的工作致力于采用CNN方法进行单独输入。 对于图像,Dong等设计一种紧凑而有效的模型,即卷积神经网络(AR-CNN)[17],以无缝减少不同的编码伪像。 Wang等设计基于深度双域(D3)[18]的快速恢复框架,以减少JPEG压缩图像的伪像。 D3模型提高了深度网络的大量学习能力。 对于视频,Kappeler等提出了一种在视频的空间和时间维度上都经过训练的网络[19],以增强其空间分辨率。 薛等 设计面向任务的流程(TOFlow)[20],这是一种通过自我监督,针对特定工作的视频增强措施学习的运动表示。 陶等 在CNN方案中提出了“亚像素运动补偿”(SPMC)模型[21]。 分析和结果证明了该模型在超分辨率视频中的有效性。 这些基于CNN的方法[19-22]有助于促进视频恢复的发展。 戴等。 设计了一个可变滤波器大小的残差学习CNN(VRCNN)[23],可实现4.6%的比特率增益。 [24] [25] [26]等其他基于CNN的视频压缩工作在增强视频质量方面也取得了可喜的进展。 杨等 [27] [28]开发了质量增强卷积神经网络(QECNN)方法,该方法不需要对编码器进行任何修改即可获得HEVC的质量增强。 最近,Zhang等[7]设计了残量高速公路卷积神经网络(RHCNN)用于HEVC中的环路滤波。 Lu等 [8]很好地将视频压缩中的后处理建模为卡尔曼滤波过程。 贾等。 [9]提出了一种基于内容感知的基于CNN的HEVC环路滤波。 这些作品全部采用单一输入来追求最先进的性能。 依靠卷积层的强大学习能力以及非线性层的突出非线性优势,与传统方案相比,CNN已被证明与压缩方案更好地匹配,可以解决复杂的失真。 尽管如此,由于缺乏信息多样性,单一输入仍然限制了CNN网络的学习上限。

C、cnn多输入的方法
基于CNN的多输入方法可以在一定程度上弥补单输入带来的弊端。不幸的是,关于减轻角度伪影的工作并不多。 他等文献[10]提出了一种分区遮蔽的CNN来获得HEVC的编码视频增强。他们利用视频编码器提供的分区信息来进行质量增强。 他们的实验结果显示了BD率合理的结果和良好的性能。 但是他们没有考虑增加高频信号,并且他们提议的网络主要骨架中的69个卷积层的总数极大地增加了计算负担。 由于以上所有观察,我们从信号处理哲学的新角度研究了一种新颖的后处理方案

3、提出的方法

在本节中,我们将首先提供RRHA方案的详细信息。 该声明将涵盖网络框架,损失函数,数据集和培训过程。 然后,我们还将介绍残差的三项输入,预测和重构方法。

A、RRHA方法结构
提议的RRHA的输入分别是残差信号和重建信号。 考虑到残差和重构的不同特征,我们设计了由2个子网组成的整个网络。 它们是前面提到的HF-CNN和AFCNN,如图4所示。该RRHA使用残差学习(请注意,此处的残差学习[29]表示要学习输入和标签之间的差异,请不要与残差信号混淆)方法 加快培训过程。

引入残留信号的原因

一方面,我们发现残留信号可能暗示一帧信息丢失最多的地方。 帧中残值较高的位置意味着该区域会丢失许多重要信息。 因此,残差可以通过其指标作用引导CNN学习这些有用的丢失特征。 图1证明了推论。 通过如图1所示从建议的网络中提取特征图,很明显,残差信号传导了CNN,可学习大量的尖锐边缘和复杂的形状信息。


Fig。 1.在QP37下串联融合模式下,从RRHA的HF-CNN导出的仙人掌和BQSquare的残差特征图。 仙人掌的残留特征以及包括扑克,压延机和金属圈在内的丰富上下文证明了其对提高视频帧质量的杰出贡献。 BQSquare的剩余功能是一个简单的示例,它还显示了涉及椅子和桌子的大量细节。

另一方面,在多输入法的启发下,我们通过信号处理理论重新考虑了这些视频编码信息下的深层物理意义。 实际上,残差信号本身就是经过帧变换和量化后的高频信息。 它包含大量密集的详细信息。 为了增加错过的信息,我们采用残差作为输入来增强有用的高频信息。 图2显示了一系列亮度帧,分别是QP37的起点,重建,预测和残差。 重构表示所有频率的编码帧的全局信息。 如标记所示,与原始帧相比,它仍会丢失密集区域上高频的一些详细信息,例如蓝色和绿色块中的窗口形状以及红色块中的保护条边缘。 该预测主要包括低频信息。 我们可以更清楚地看到该区域的模糊和失真变化很大。 残差恰好是重构和预测之间的差异。 如图2所示,它是包含大量丰富边界信息的高频信号。 例如,在残留物中,有窗户的网格和边缘,即办公桌的形状,在重建时没有足够的质量作为原始框架。 因此,在用残差信号进行重构时,确实有必要提高丢失的高频系数。


图2.具有帧内模式的QP37下原始帧,重构,预测和残差的典型示例。 如标记所示,重建会错过密集区域上高频的一些详细信息,例如绿色和蓝色块中的窗口轮廓以及红色块中的护栏轮廓。 残差显示丰富的高频信息,例如窗户的网格和边缘以及书桌的形状。

设计HF-CNN和AF-CNN的原因
首先,让我们简要介绍拟议的单输入CNN。 我们仅需重建就可以开发通用网络,即GNET。 表一显示其卷积层的总深度为8。通常,我们使用深度较浅的CNN来达到更吸引人的性能。 当然,更深的网络具有更强的学习能力,但同时会导致大量的计算。此外,由于强大的差异学习能力,我们通常采用残差块来适应单个输入。


但是,低频信号的成分即预测和高频信号的成分即残差一起构成重构。 因此,重建包含所有频率的全局信息。 我们应该设计单个网络以分别适应残差(高频)和重构(全频)信号。 如果我们仍然使用相同的CNN来处理各种信息,则无法从提取的不同信号中最大化效果(我们将在第IV节中显示比较细节)。因此,我们为RRHA提出了HF-CNN和AF-CNN。

如算法1所示,我们将RRHA方法嵌入HEVC。 我们使HEVC能够执行RRHA方法来替代传统的DF和SAO滤波器。 图3描述了HEVC的编码框架,嵌入式RRHA方法的位置以及后处理的流程。


HF-CNN的设计
由于我们将残差信号作为独立输入引入以增强高频信息,因此我们应采用定制网络来适应它。 因此,我们开发了一个适合高频信息的特定网络,即HF-CNN。 图4的上方虚线矩形显示了HF-CNN的体系结构。 我们采用具有8个卷积层的浅深度。 HF-CNN也是一个差异学习网络。 此外,由于残留块在从低级到高级问题的计算机视觉任务中的出色表现,我们将其用作计算HF-CNN中高频信息(残余)的主要处理单元。 HF-CNN中有3个残差块,包括6个卷积层。 如表II所示,对于每个卷积层,我们都将“内核大小”设置为3×3,将“特征图号”设置为32,将“步幅”设置为1,将“填充”设置为1。我们按如下方式计算HF-CNN的特征图:


其中A是激活函数,Wi和Bi分别是权重和偏差矩阵。 由于参数整流线性单元(PReLU)[30]的学习能力,我们将其用作HF-CNN的激活函数。
图4. RRHA方法在串联融合模式下使用HF-CNN和AF-CNN的子网。 将残留物馈入HF-CNN,以增强丢失的高频信息。 依靠残差块的HF-CNN通过差异学习有效地学习特征。 馈入重构的AF-CNN执行下采样和上采样策略,以通过差异学习修补全局信息。

AF-CNN的设计

同时,我们将重构信号视为混合频率信息。 因此,我们开发了全频率网络,即以重构为基础的AF-CNN。 图4的下部虚线矩形描述了AF-CNN的框架。 我们采用两个阶段的策略,即先进行下采样再进行上采样。 在第一阶段,下采样是为了有效减少信息中的冗余并保留有用的信息。 但是,它也可能会切断全局上下文,因此我们在第二阶段执行上采样,以将所有频率的全局信息传播到下一个卷积层。 接下来,我们将第一阶段中的集中特征与第二阶段中所有频率的全局特征连接起来。 这是为了为网络提供简要功能和全局上下文。
HF-CNN也是一个差异学习网络。 如表III所示,所有卷积层的内核大小为3×3,步幅为1,填充为1,特征映射数为32、64或128。对于转置的卷积[31]层,我们将 内核大小为2×2,步幅为2,填充为1,要素图号为64或32。AF-CNN的公式可绘制为

其中Rec是作为输入的重建,P表示激活和最大池化的顺序函数。 我们也选择PReLU作为AF-CNN中的激活功能。


其中C表示连接特征的连接函数。
结合HF-CNN和AF-CNN的特征后,我们使用1通道的卷积层进行计算,然后获得与输入大小相同的最终输出Fout(Res,Rec)。

损失函数,数据集,训练
损失功能。 由于后处理是低级任务,因此我们将均方误差(MSE)[32]用作RRHA的损失函数,如下所示。


其中Θ封装了包含权重和偏差的网络的整个参数集,而Υ(Yi |Θ)表示网络模块。

数据集。 在数据集方面,我们利用包含800个训练图像和100个2k分辨率的验证图像的DIV2K [33] [34]作为原始源。 首先,我们使用FFMPEG [35]的GPU加速将原始的900 PNG图像转换为原始YUV视频。 然后,我们采用改进的HM-16.19将原始YUV分别编码为QP22,QP27,QP32和QP37的4个版本的视频。 之后,我们从每个原始YUV中提取残差,预测(针对III-E部分)和重构,然后将它们分为Y,Cb和Cr的不同成分。 接下来,我们将分量拆分为Y的块尺寸为64×64,Cb和Cr的块尺寸为32×32。 因此,有522、939组残差,重构和标签用于训练,而有66、650组用于验证。

训练。 现在,一旦我们获得了分离成分的残差和重构斑块,就以16的批量将它们分别喂入HF-CNN和AF-CNN。表IV展示了QP37样品的训练程序参数。 我们首先训练QP37模型,然后微调QP37模型以获得QP22,QP27和QP32的所有其他模型。 我们将QP37模型的基本学习速率设置为1e-4。在每100个时间间隔后,我们将代表调整学习速率的系数的γ乘以0.1来降低学习速率。 我们采用动量为0.9且权重衰减为1e -4的自适应矩估计(Adam)[36]算法。 我们训练了总共120个时期的QP37模型。 然后,我们以20个时期对成熟的QP37模型进行了调整,以获取其他QP模型。 最后,我们获得4个版本的QP的所有模型进行验证和测试。

三输入的方法
实际上,我们还尝试将预测信号引入该方案。 我们创建残差,预测和重建网络的三重输入。 我们尝试在预测中利用低频信息来增强重构。 我们采用适合预测,残差和重构的三个GNET。 但是,由于与重建中丢失的高频信息相比,丢失的低频信息较少,因此预测可以对重建提供有限的增强效果。 我们将在第四节中详细说明比较的结果。

4、实验结果

为了测试提出的算法的性能,我们将提出的RRHA方案嵌入到如图3所示的HEVC参考软件中。在本节中,我们首先将提议的RRHA与VRCNN [23]以及HEVC与DF和SAO滤波器在BD上进行比较 随后,我们通过比较残差和重建的双重输入与表中所示的通用网络,验证了多重输入功能。 I(RRGG)方法和用通用网(RG)重建的单独输入。 通用网络(PRRGGG)网络的预测,残差和重构的三项输入也与RG进行了比较。 然后,我们通过比较RRHA和RRGG来评估相同输入上不同网络的效率。 最后,通过比较基于RRHA的串联融合与添加融合对融合模式产生的影响。对于测试序列,我们使用HM-16.19帧内编码一帧从不同CTC序列获得预测,残差和重构[ 38]作为数据预处理程序的训练。 然后从它们中提取亮度分量,馈入要测试的网络。

A、RRHA算法的表现
表V显示了在CTC测试序列上建议的RRHA和VRCNN以及带有DF和SAO滤波器的HEVC的比较结果。 请注意,公平地说,我们还使用完整的DIV2K数据集在QP37上训练了VRCNN 120轮,然后通过对QP37的20个迭代之一进行微调来推导QP32,QP27和QP22的模型。 这与我们训练III-D部分中提到的RRHA的过程相同。值得注意的是,所提出的RRHA算法的平均BD速率优于VRCNN。 在节省BDrate方面,RRHA方法在每个序列上都超过了VRCNN。 具体而言,拟议的RRHA方案在A,B,C,D和E类上分别优于VRCNN -2.0%,-2.8%,-1.8%,-1.3%和-3.3%。 通常,B类仙人掌的峰值差异甚至达到-4.3%。这表明,总体上,引入残余信号来增强高频信息并根据信息频率属性设计单个网络可以在减少伪像方面实现明显的改进。 同样,与具有DF和SAO滤波器的HEVC相比,RRHA可以获取更多的每个QP,包括22、27、32和37更好的增益,其BD速率平均为-9.9%。 RRHA的增幅为-14%,优于E级最远的前者。 尤其是,BasketballDrill序列的最高差异为−14.7%,随复杂纹理而变化很大。 该性能表明,RRHA通过引入残留信号并开发自适应频率网络来有效地增强明显变化区域中的高频信息。

表5

双重和单独重建。 图5显示了建议的RRHA方法,VRCNN和HEVC与DF和SAO滤波器在亮度上的速率失真(RD)曲线比较。 如图所示,在Johnny,BasketballDrive,BasketballDrill和Kimono序列的每个QP下,所提出的RRHA方法的PSNR明显高于带有环路滤波器的VRCNN和HEVC之一。 简而言之,事实证明,所提出的RRHA模型在性能上明显优于VRCNN和HEVC基线方法。

图5. HEVC与DF和SAO,VRCNN和建议的RRHA在亮度上的RD曲线比较。 显示了Johnny(a),BasketballDrive(b),BasketballDrill(c)和Kimono(d)的比较RD曲线。 显然,我们提出的RRHA在每个序列上都优于DF,SAO和VRCNN的HEVC。

多输入算法的结果
多种输入方法的分析为了验证将残差和预测信号导入该方案的功能,我们还将这些方法与重构方法的单独输入进行了比较。 请注意,为了确保准确的比较结果,所有要研究的方法都采用相同的网络体系结构-表中所述的通用CNN。 I.表 VI展示了RRGG方案和PRRGGG方法相对于RG网络的比较优势。 与唯一的输入方法即RG网络相比,RRGG和PRRGGG均可以平均节省-0.9%的BD速率。 在每个Class序列中,RRGG方法和PRRGGG方法在BD速率上均优于RG网络的基线。 这些性能说明,基于相同的网络结构,残留信号为增强质量提供了有用的高频信息,而预测对该方案没有明显的附加增强效果。 这是合理的,因为重构由变换,量化,逆变换和逆量化组成。 因此,从各种预测参数得出的预测在编码器和解码器侧都是相同的,因此没有损失。 但是残差在变换,量化,逆变换和逆量化过程中会丢失一些交流高频信息。 因此,引入残余信号显着提高了压缩视频帧的质量,而预测则提供了有限的帮助。 具体而言,RRGG方法导致E类的BD速率相对RG方法领先-1.5%BD.PRRGGG和RG之间的BD速率的峰值差异也出现在E类上,为-1.4%。 总之,与单独输入法RG网络相比,导入另一种残差输入的RRGG方法明显增加了错过的高频信息。

网络结构的研究结果
我们将建议的RRHA方法与RRGG方法进行比较,以评估包括建议的HF-CNN和AF-CNN的频率网络的使用情况。 请注意,公平地说,RRHA和RRGG算法都是基于残差和重构的相同输入。 RRGG在残差和重建上都利用了通用网络。 表 VII显示了RRHA和RRGG方法之间的比较结果。 相对于RRGG,RRHA的BD率平均为-1.2%。 这表明用增强高频信息的HF-CNN和AF-CNN修补全局信息来分别拟合残差信号和重建信号的效果很好。 结果证明了采用不同架构处理不同频率信息的设计原理。 具体而言,在节省BD速率的情况下,建议的RRHA在每个类序列中均优于RRGG方法。 通常,在E类序列上,BD速率的最远差异为-2.2%。 简而言之,比较的验证提供了有力的证据,表明RRHA网络明显比RRGG明显改善了编码帧的质量。

方法融合的研究
提议的RRHA方法在上述所有测试中都应用了串联融合模式,如图4所示。我们还通过将提议的串联融合模式与同时安装在RRHA上的添加融合模式即RRHA-Concat和RRHAAdd进行了比较,验证了融合模式的功能。 表 VIII展示了它们之间的BD率的比较结果。 与RRHA-Add方案相比,RRHA-Concat方法可节省BD-rate平均值-0.1%。 具体而言,RRHA-Concat方法在B类和E类序列上几乎是RRHA-Add类,而在A,C和D类上几乎是均匀的。将2组卷积特征组合在一起的串联融合模式将这些特征的和列维数合计。 从理论上讲,这种级联特征比仅添加卷积特征所获得的信息表达的信息更为丰富。 以上评估结果表明,与添加融合模式相比,串联融合模式具有更好的代表性。 总之,更好地选择融合模式可以促进性能的进步。

客观结果
图6显示了对Johnny和BasketballDrill序列中QP37亮度的原点,带有环路滤波器的HEVC,VRCNN和建议的RRHA方法的视觉比较。 在强尼(Johnny)中,HEVC(b)引起了明显的阻塞伪影,VRCNN(c)引起了轻微的阻塞伪影,但是我们的RRHA方法(d)在放大区域中处理了平滑的细节。 在BasketballDrill中,放大区域的HEVC(f)和VRCNN(g)的深边界存在曲折形状失真,而浅边界则有一条噪声。 但是,建议的RRHA(h)在该区域执行的锯齿形失真较小,并且线路的噪声较大。 可以得出的结论是,在可视化结果上,所提出的RRHA方法优于带环路滤波器的VRCNN和HEVC。

图6.在QP37的亮度下,Johnny和BasketballDrill在原始帧,带环路滤波器的HEVC,VRCNN和RRHA方法的主观结果上的比较。 在约翰尼(Johnny)中,HEVC带有环路滤波器和VRCNN产生了明显的阻塞伪影,而RRHA在缩放区域中表现出平滑的变化。 在BasketballDrill中,带有环路滤波器和VRCNN的HEVC帧中明显出现了深边界形状的锯齿形失真和浅线噪声,而RRHA很好地衰减了它们。

5、结论

在本文中,我们建议引入残差信号作为高频指示器,指导CNN学习必不可少的高频信息,以提高压缩视频帧的质量。 基于这种动机,我们首先将残差作为独立输入导入,以增强复杂的高频纹理和细节。 相应地,我们设计了具有不同频率输入的RRHA方法,其中HF-CNN用于高频,AF-CNN用于全局信息。 因此,我们针对具有各自目标的单个网络定制了不同的CNN层。 具体来说,我们应用残差块来适应HF-CNN中的高频信息,同时采用下采样和上采样阶梯来适应AFCNN的所有频率信息。 就我们所知,这是我们提出的第一项工作,我们建议使用残差来增强丢失的高频信息,从而提高编码视频帧的质量。 实验结果表明,所提出的算法显着减少了BD率和压缩视频帧的主观质量的客观质量两侧的伪影。 比较结果清楚地证明了所提方案的有效性。 将来,我们将致力于为视频编码工作创建更高级的后处理算法。

论文作者信息及地址:https://www.researchgate.net/publication/334783214_Residue_guided_loop_filter_for_HEVC_post_processing

你可能感兴趣的:(论文翻译:Residue guided loop filter for HEVC post processing)