论文阅读：An Efficient Video Coding System with An Adaptive Overfitted Multi-Scale Attention Network

简介：

本文提出一种有效的视频编码系统（EVCS），该系统由常规编解码器和自适应过度拟合多尺度注意力网络（MSAN）组成，以提高编码效率。在在编码器端，MSAN自适应地调整网络大小，并以过拟合的方式针对一组帧进行训练。仅使用当前的编码视频流作为训练集，MSAN即可轻松获得强大的恢复功能。训练后，将学习到的MSAN参数作为编码比特流的一部分传输到解码器。在解码器端，加载了传输参数的MSAN可以非常精心地恢复重建的帧。与高效视频编码标准视频编码相比，EVCS可以实现12.141％的Bjøntegaard-Delta比特率降低，优于现有的基于深度学习的压缩视频恢复工作，并且计算复杂度更低。此外，MSAN是常规编解码器的附加部分，无需进行任何结构更改，因此使其具有与现有的编码系统兼容。

1，介绍

随着视频应用数量的增加和对视频质量的高要求，视频编码技术的发展不断。在过去的几十年中，已经开发了包括MPEG-2 [1]，H.264 / AVC [2]，H.265 / HEVC [3]和H.266 / VVC在内的经典视频编解码器内核。但是，面对巨大的传输和存储成本，压缩效率仍渴望进一步提高。

近来，考虑到视频压缩问题类似于图像处理问题，例如超分辨率，降噪和去模糊，因此将深度神经网络（DNN）应用于视频压缩以改善压缩性能并显示出巨大的潜力。例如，一些工作[4] – [7]用DNN取代了手工制作的模块，例如帧内预测，运动估计和环路滤波器。端到端的视频压缩学习系统在[8]中已经提出。此外，还有[9]，[10]的作品使用DNN来修复压缩视频，作为后期处理。这些现有作品通常将大量数据馈送到DNN中，以进行培训，以处理在应用过程（测试过程）中无法获取原始视频（真实情况）的情况，并使输出接近标签。

视频压缩的独特特征是，在实际应用中，总是可以在编码器端获得输入的原始视频，即地面真实情况。在本文中，我们利用这一特性，提出了一种名为EVCS的高效视频编码系统，该系统由常规视频编解码器和自适应过度拟合多尺度注意力网络（MSAN）组成。在编码器端，MSAN根据要恢复的帧的复杂性和质量来调整网络大小，并以过度拟合的方式学习来自常规编码器的一组连续重建帧与相应原始帧之间的映射。此外，我们提出了多尺度通道注意（MSCA）机制，以使MSAN获得更强的恢复能力。为了将这种能力传递给解码器，将学习到的参数与编码后的比特流一起传输到解码器。在解码器端，加载有传输参数的MSAN对解码的帧执行推理操作并输出高质量的帧。考虑到需要传输参数并影响压缩性能，轻巧的MSAN设计精巧，可以用较少的参数实现更强的恢复。
本文贡献：
1，集成了H.265标准参考软件HM的拟议高效视频编码系统（EVCS）可以实现12.141％的比特率节省，其性能优于基于深度学习的压缩视频恢复工作。此外，EVCS可以轻松地与所有现有视频编解码器兼容，而无需修改其内核。
2，我们提出了多尺度通道注意（MSCA）机制，以提取不同尺度的特征并通过考虑特征通道之间的相关性来自适应地重新缩放它们。这种MSCA机制解决了重量级网络的接收域不足的问题，并提高了神经网络的恢复能力。
3，得益于轻巧，精心设计的网络，可以在配备2080Ti GPU的PC平台上实现1920×1080 30fps的实时解码。通过大大提高的压缩率和实时解码，EVCS可以使越来越多的视频点播（VOD）应用受益，从而节省了巨大的带宽和内容交付网络（CDN）成本。

2，相关工作

基于深度学习的视频编码
近来，广泛的工作集中于应用DNN来恢复压缩的视频以提高压缩效率，这主要涉及环内滤波方法和后处理方法。前者旨在将DNN嵌入视频编解码器以生成高质量的解码帧，并为其他帧的编码提供更好的参考。 Park等 [11]首先提出了一种基于CNN的HEVC环路滤波，以实现更好的压缩性能。多帧环路滤波器（MIF-Net）[12]通过利用来自相邻帧的更多信息来增强视觉质量。另一方面，基于DNN的后处理方法通常在常规压缩过程结束后增强解码帧。 DCAD [13]进一步减少 DBF [14]和SAO [15]无法消除的压缩伪影，例如块效应和振铃效应。任等人。 [10]提出了QECNN-I和QECNN-P分别减少I帧和P / B帧的失真。对于上述大多数作品，很难很好地概括模型，因为它需要大量的训练数据，并且不能始终如一地获得各种内容的高质量。

多尺度处理
具有强大的多尺度表示能力的DNN在包括对象检测[16]，显着对象检测[17]，语义分割[18]等广泛的应用中实现了性能改进。一些著作[19]，[20]从具有不同分辨率的特征中提取多尺度信息。此外，高等。 [21]在粒度级别上代表了多尺度特征。由于网络接受域的范围不断扩大，并提供了更多的全球信息，因此多尺度处理也广泛用于低级视觉任务中，例如超分辨率[22]和降噪[23]。
注意机制
与人类感知中的注意力类似，注意力机制将更多可用的处理资源分配给输入的大多数信息技术。注意机制首先出现在序列模型领域[24]。在工作[25]之后，注意力机制被广泛应用于卷积神经网络，并提出了许多相关的工作[7]，[26]，[27]。由于胡等。 [28]提出了SENet，以利用通道之间的关系来实现图像分类的显着性能改进，多项工作嵌入了注意力处理以提高低级视觉任务的性能，例如图像超分辨率[29]，[30] 。在我们提出的工作中，注意力机制可以指导网络充分利用不同规模和深度的特征，这些特征被提取出来以增加网络接受域的范围。

3，论文提出的方法

如图1所示，我们提出的高效视频编码系统EVCS由常规的压缩流程和附加的恢复流程组成。常规压缩流是指由常规编解码器输出的编码比特流，另外的恢复流包括我们的MSAN参数，这些参数以重建帧作为输入，原始帧作为标签进行训练。

所提出的有效视频编码系统EVCS包含常规压缩和附加恢复。在编码器中，对MSAN进行训练，其中将常规编码器的重建帧作为输入，将原始帧作为label。过度拟合是通过仅对一组连续帧进行训练来实现的。 MSAN的过拟合参数将作为编码比特流的一部分进行传输。在解码器中，利用传输的参数，对解码的帧执行MSAN的推理操作以生成最终结果。

该过程说明如下。首先，将输入视频分为连续的原始帧组和按组压缩。组长（指播放T秒的帧数）是由视频中的场景变化决定的，以确保每个组中相似的数据分布，并且可以通过我们的MSAN轻松地适应。然后在编码器端，一组连续的原始ram首先由常规编码器进行编码，常规编码器输出用于传输的编码比特流和用于训练网络的重构帧。我们的MSAN经过在线培训，可以使该组的数据过拟合，并具有很强的恢复能力。过拟合的参数被认为是比特流的一部分，并被传输到解码器。过拟合训练过程等效于从训练集中提取和记录信息，这与数据压缩相同。在解码器侧，所接收的常规比特流由常规解码器解码。然后，解码后的帧组由我们的MSAN恢复，并加载了接收到的过拟合参数，以获得最终结果。由于将过拟合的参数从编码器传输到解码器，因此在解码器中可以实现相同的强大恢复能力
多尺度网络
由于这种特殊的编码系统既需要传输网络参数，又需要传输编码后的比特流，因此压缩性能不仅取决于恢复的质量，还取决于网络参数的数量。 “越深越好”在我们的系统中效果不佳。更深的网络可能具有更强的恢复能力，而更多的附加信息必须发送到解码器。因此，需要设计一个轻量级的DNN，以尝试在DNN和DNN之间取得更好的权衡质量恢复和参数数量。另外，轻量级结构还指示较低的计算复杂度和较快的处理速度，这也是评估视频编码系统的重要指标。

多尺度注意力网络的结构。它可以简单地从下到上划分为三个分支，即基础分支，多尺度分支1，多尺度分支2。三个分支共享相同的参数，并用于提取不同的尺度信息。引入频道注意是为了了解级联功能的重要性。

拟议的MSAN的总体架构如图2所示，其中包含7个重构帧的序列{
1-3,1-2,3-1,1,1+1,1+2,1+3}作为输入，其中ˆIt表示目标帧1，
表示它是6个相邻帧。所有这七个输入帧都表示为A0。 MSAN旨在生成接近原始帧1的高质量帧Ot。根据我们的设计思想，它可以分为三个部分，包括一个基础分支，两个多尺度分支和一个通道注意力重建模块。三个部分描述如下。
基础分支：我们首先设计一个非常简单的结构，称为基本分支，如图2的底部所示。将七个堆叠的重建帧A0直接输入到基本分支中，然后将三个不同级别的隐藏特征图输出到重建模块。整个过程定义为：

其中三个h代表不同级别的隐藏功能图。 fB（·）表示基础分支网络的特征提取功能。需要提到的是，在大多数多帧恢复工作中[9]，[31]-[34]，相邻帧在被发送到特征提取模块之前，总是被运动估计模块明确对齐。它有利于改善视觉质量，但是此操作必须使用大量参数，并且计算复杂度很高。这对于我们的系统而言并不划算。根据输入解码帧的复杂性和质量，MSAN通过设置超参数K来调整网络大小，超参数K决定特征通道的数量，并且还将作为标志发送到解码器。

多尺度分支。由于参数的限制，我们不允许设计一个非常深的网络，这导致我们的基础分支仅具有极为有限的接收范围。因此，很难从那些偏移较大的相邻帧中提取信息，尤其是那些导入边缘信息。近年来，有许多方法可以用来扩展接受域而不增加网络深度，例如使用可变形卷积[35]，[36]，非局部神经网络[26]。但是这些方法也带来了更多的参数或大量的计算。受作品[23]，[37]的启发，我们选择了多尺度策略来获得更宽的接收范围，而只增加了最少的计算量。跨规模共享网络权重，以显着节省参数并加快培训速度。为了保留边缘信息，我们选择maxpooling进行下采样为

其中MaxPooling用于2倍下采样。 A1和A2分别发送到两个多尺度分支

其中f_MS1(·)和f_MS2(·)表示与基础分支共享相同权重的多尺度分支网络的特征提取函数。h是多尺度分支的输出，将与基础分支的输出一起发送到频道关注度重建模块。

频道注意力重建模块。来自三个分支的隐藏特征将用于重建高质量增强帧，但是通常这些隐藏特征的重要性并不相同，因此引入了关注机制作为指导，以将可用特征的分配偏向于信息量最大的组件。在融合来自具有不同分辨率的不同分支的要素之前，需要将低分辨率要素采样为原始帧大小。

其中f_up2(·)和f_up4(·)分别是使用像素混洗的×2和×4 upsam插入函数[38]。上采样后，将所有具有相同分辨率的要素连接起来，然后进行频道关注

其中[·，·，·]和⊗分别表示级联和逐元素乘积。 fAtt（·）是由卷积神经网络实现的通道注意功能，主要参考相关方法[7]，[29]。特征FAtt用于最终重建。

f_Rec(·)是由一个3×3卷积层构成的重建函数。
训练策略
预先训练MSAN。为了在训练过程中加快收敛速度并缩短编码时间，我们使用由具有各种编码质量的视频组成的数据集对我们提出的MSAN进行了预训练。如图3所示，与从头开始训练相比，从预先训练的网络开始会大大缩短收敛时间。而且，需要根据要恢复的帧的复杂度和质量来调整网络的大小，这可以通过常规编码器输出的编码比特流的大小来反映。较大的比特流大小通常意味着更好的编码质量或更复杂的视频内容，并且需要更大的网络来处理。为此，我们通过设置K = 1、2、3获得三个预训练网络。

图3.序列BQTerrace，QP22上不同训练策略的收敛时间。

训练MSAN。在从常规编码器获得一组连续的压缩帧和相应的原始帧之后，我们选择参数值不超过编码比特流大小5％的最大网络。 MSAN由预训练的模型初始化，并学习压缩帧和原始帧之间的映射。 MSAN的损失函数可以写成

提出的EVCS主要具有以下两个优点。
强大的恢复能力，各种视频。在现实世界中，这些视频既复杂又杂乱。通用网络试图收集更多数据并设计更大的模型以提高其通用性和恢复能力，但始终存在例外。在我们的方法中，我们过度拟合视频的每组，然后将过度拟合的参数传输到解码器，并且对于所有各种视频都可以获得强大的过度拟合恢复能力。实验表明，使用Sec中的广义网络，我们提出的EVCS的压缩性能优于所有其他相关方法[10]，[12]，[13]，[39]。 IV。
解码速度快。与其他大型广义网络相比，我们的结构更轻巧。通过更轻的网络和更快的解码速度，我们可以获得更强的恢复能力。 IV。值得一提的是，由于MSAN的在线培训策略，它不可避免地会导致编码延迟，但不会影响拟议的EVCS在视频点播市场中的广泛应用。原因是VOD应用程序专注于实时解码和高压缩性能，并且不需要低延迟编码。 EVCS非常适合。

4，实验细节

我们从Vimeo [40]中选择300个原始视频，其中许多视频是使用专业相机拍摄的，涉及不同的主题，并裁剪成2700个17帧序列，固定分辨率为144×144，以进行预训练。我们在默认的随机访问配置下压缩了所有这些序列，并将量化参数（QP）从20设置为39。

在训练阶段，将帧分割成60×60的小块而不会重叠。批大小设置为64。学习率设置为1×10-3，然后每40个周期衰减10倍。为了优化，我们通过设置β1= 0.9和β2= 0.999来使用Adam [41]。拟议的MSAN在Pytorch 1.2.0中实现[42]。在训练过程中，参数采用32位浮点格式，以保证训练的准确性，然后在训练后将参数转换为16位浮点格式，以减少要传输的信息。表3显示了转换不会导致性能下降。

表三

评估了在默认随机访问配置下压缩的HEVC通用测试条件（CTC）[43]的4个标准测试序列。根据CTC，我们将QP设置为四个不同的QP（22、27、32、37），因为变化的压缩性能是由QP引起的。所有测量仅使用亮度通道（Y）。质量增强是通过Y-PSNR来衡量的。测量BD-BR和BD-PSNR [44]以评估速率失真性能。 BD-BR表示相同PSNR时的比特率节省（％），而BD-PSNR表示相同比特率下的质量改善（dB）。

B.与HEVC基准的比较
我们使用HM16.20 [45]，它是HEVC的最新参考软件，作为嵌入在EVCS中的常规编解码器，以评估所提出方法的压缩性能。如表2所示，与HM16.20基准相比，带有MSAN的拟议EVCS取得了显着改善。当QP设置为22、27、32、37时，所有测试序列的质量增强范围平均为0.379 dB至0.532 dB。我们提出的方法的BD-BR为-12.141％。这意味着在相同的视频质量下，与标准HM odec相比，我们提出的方法可以节省12.141％的比特率。具体而言，最高的BD-BR在序列BQTerrace上达到-24.060％。就BD-PSNR而言，平均在所有序列上达到0.391 dB。

C.表4显示，我们的EVCS方法节省的BD-BR明显超过最新工作[10]，节省下来了 11.06％的BD速率。此外，其他先前工作[12]，[13]，[39]的BD率节省幅度为5.50％至6.59％，远低于EVCS。此外，我们的EVCS方法实现了这样的性能提升，而嵌入式MSAN的FLOP则比工作[13]，[39]少1.45到2.55倍，比工作[10]少15.5倍。DNN的FLOP限制了处理时间，因此我们的EVCS方法在解码速度上具有很大的优势。

D.解码速度
表5显示了所建议工作的解码速度。解码速度在Intel i7-7800 3.2GHz CPU和GeForce GTX 2080Ti GPU上进行评估。 HM编解码器作为常规编解码器嵌入到EVCS中。 HM编解码器和MSAN分别在CPU和GPU测试平台上运行。由于EVCS解码同时包括HM解码和MSAN推理，它们以流水线方式同时针对帧进行，因此解码速度受到较慢解码速度的限制。与单独的HM解码器相比，对于不同分辨率的视频，EVCS的解码速度相同。 1920×1080视频序列的解码速度超过30 fps，无需任何加速操作。精心设计的轻量级MSAN具有更少的FLOP，从而带来了快速的速度。在实际使用情况下，解码速度是衡量视频压缩技术的重要指标，并且是实现实时处理所必需的。

E.主观视觉质量
图4说明了与标准参考软件HM相比，我们的EVCS方法的主观视觉质量性能。呈现了三个典型的序列，PeopleOnStreet，BasketballDrive和Cactus，以直观地了解我们的方法的优越性。从这些主观评估示例中，我们可以看到EVCS能够实现更好的视觉质量并以较小的比特率消除令人不快的伪像。

图4.带有MSAN的EVCS的主观评估示例。（a）与序列PeopleOnStreet上的标准参考HM进行比较。（b）与序列BasketballDrive上的标准参考HM进行比较。（c）在序列仙人掌上与标准参考HM进行比较。

速率失真曲线
我们给出了几种典型序列的速率失真曲线，如图5所示，以证明我们提出的视频压缩框架的性能。在此图中，我们发现，无论比特率如何变化，我们的VCS与标准HM编解码器结合使用的速率失真曲线都大大高于原始HM编解码器。

图5

消融研究
多尺度通道注意（MSCA）机制。为了验证多尺度渠道关注机制的有效性，我们将MSAN与经过A级序列训练和测试的变体进行了比较。碱基是指仅包含碱基分支的模型。从表6中，我们可以看到Base达到BD-BR = -11.52％。 Ra指的是添加多尺度分支的碱基，达到BD-BR = -12.36％，说明了多尺度特征提取策略的有效性。当同时使用多尺度关注和信道关注时，即Rb，可以进一步提高速率失真性能，因为BD-BR达到-13.210％。因此，我们在方法中应用Rb以获得最佳压缩性能。

组长度自适应 我们评估了包含多个场景更改的，未包含在测试数据库中的多个序列上的组长自适应策略的有效性。较长的组长度可以减少每秒发送的附加信息，但是数据的增加以及一个组可能包含多个场景的事实也使过拟合变得困难。图6说明了压缩性能与组长T相关。当T固定并变大时，性能首先迅速增加，然后缓慢增加，这表明恢复能力的下降越来越影响压缩性能。当T根据场景变化进行适应时，我们的方法将获得最佳的压缩性能。我们使用[46]中提出的方法来实现场景分割。

5，结论

我们在此提出了一种具有多尺度注意力神经网络的有效视频编码框架，该框架充分利用了网络的过拟合能力，可以通过将网络参数从编码器传输到解码器来恢复重建的帧。我们已经通过实验证明了该方法的有效性。我们的方法的性能优于使用通用网络的其他类似方法。与具有广义网络的方法相比，唯一的缺点是我们的方法需要更多的编码时间。但是，在除现场广播以外的大多数视频编码应用中，都不需要实时编码。我们只需要对ncode进行一次编码，但是每次使用时都需要对其进行解码。对于这些应用程序，我们的方法将有很大帮助。