作者:Tamar Shoham
翻译:Coco Liang
技术审校/特别感谢:李大龙(腾讯视频移动端播放内核技术负责人)
原文链接:https://blog.beamr.com/2020/05/28/video-codecs-in-2020-the-race-is-on/
引言
目前已有不少可应用于视频流媒体服务的视频编解码器,而且今年还将发布更多。诸多的方案给视频服务商带来了选择困难症,因为他们需要为自己选择合适的编解码器,以确保为用户传送的音画内容能具备尽可能好的质量和最低的比特率,同时还要考虑到编码器对计算资源的要求。
多年来,选择视频编解码器一直都是很简单的事: 从上世纪90年代末接替数字电视的MPEG-2(H. 262)开始,到千禧年早期(2000年初期)主导视频会议的 MPEG-4 Part 2(H. 263) ,再到之后的 MPEG4 Part 10即 AVC (H. 264) ,后者在大多数视频业务应用,包括传输、会议和监控等在内的市场中一直享有巨大的份额。
与上述国际标准化组织发展编解码器的同时代,谷歌为YouTube 作出了顺应自然的选择,即他们自己的视频编解码器 VP9。
当HEVC在2013年批准成为国际标准时,本应合乎逻辑地成为(接替AVC/H.264)的后浪,但版税问题却成了它的绊脚石。
除此之外,较之前浪所增加的算法复杂性而带来的技术焦虑感,以及4K——这个曾被认为是 HEVC 的主要用户场景(却迟迟未全面过渡普及),多方因素下让HEVC的局面较为惨淡。
这种情况也引发了业界创建一个独立的、免版税的编解码器的强烈愿望。开发进度条快速步进的新编解码器即将面世,这让上述局面火上浇油,而我们发现自己有点像爱丽丝在梦游仙境: 各种现象将我们引领前往不同的方向——但我们到底应该走哪条路呢?
我们将从介绍“在未来视频业务应用中占有重要市场份额的编解码器”的竞争格局开始论述:
在这篇文章里,我们不会讨论 LC-EVC (MPEG-5 Part 2) ,因为它只能算是已有/存量编解码器的一个附加组件,而不是可以用来作为独立选项的视频编解码器。如果你想了解更多,https://lcevc.com/ 将是一个很好的开始。
如果你希望我们评出唯一的获胜者——那我们可能要让你失望了: 很明显,我们并不是朝着单一编码器一统全局的方向前进的。在本文中我们的目的是提供信息,突出每个编解码器的亮点和特性、分享见解和观点,并以此希望能帮助各位在当下的编解码器混战中武装自己。
起源
第一点我们想讨论的是编解码器的起源,它们各自来自哪里,又意味着什么。迄今为止,大多数被广泛采用的视频编解码器都是联合视频专家团队(Joint Video Expert Team)制定的标准,该团队牵手国际电信联盟-电信联盟视频编码专家组(ITU-T Video Coding Expert Group (VCEG))和国际标准化组织运动图像专家组 (ISO Moving Picture Experts Group (MPEG) )共同努力并制定联合标准。
AVC和 HEVC 都是通过这样一个步骤明确的流程孵化产生的:从 CfP (提案征集)开始,通过标准制定团队对每个提案算法工具的压缩效率和性能要求进行评估,直到建立一个拟议标准草案。经过几轮的编辑和修改,最终的草稿就会被批准,成为正式标准。这个过程非常有条理,并且经过长期实践证明可成功孵化出稳定可用的视频编解码器,AVC、HEVC 和 VVC 都是以这种方式创建的。
EVC 编解码器或许是一个例外,因为它仅仅来自 MPEG,而没有 ITU-T 的参与。这可能与 ITU VCEG 历来都不赞成将版税问题纳为标准化过程的一部分有关,而对于 EVC 来说,正如我们将看到的,这正是最值得关注的问题之一。
视频编解码器的另一个来源是商业公司。一个典型的成功案例就是由谷歌开发的 VP9编解码器,作为 VP8的继承者,VP9编解码器由 On2 Technologies 公司(后来被谷歌收购)开发。此外,一些公司还试图推广开源、免版税、专利自主的编解码器,比如 Mozilla 的 Daala 或 BBC Research 的 Dirac。
编解码器的第三个来源,是在 ISO 或 ITU 等官方国际标准机构之外、独立运作的一个联盟或若干公司组成的工作组。AV1就是一个完美的例子,数家公司通过组建开放媒体联盟(AOM),协同创建了一种免版税的开源视频编码格式,并且主要面向互联网视频业务。
AOM 的创始成员包括谷歌(Google)(它贡献了 VP9技术)、微软(Microsoft)、亚马逊(Amazon)、苹果(Apple)、 Netflix、 FB、 Mozilla 等,还包括思科(Cisco)和三星(Samsung)这样的传统 “ MPEG 支持者”。
AV1编码器是从“实验”中构建出来的,每个候选的算法工具都被添加到参考软件中,并可以通过开关进行对比实验,从而使得算法工具进入最终标准定稿的决策过程非常具有灵活性。
时间线
比较不同编解码器的一个简单维度就是看他们的时间线。
AVC在2003年5月完成。10年后的2013年4月,HEVC 也终于完成。AV1码流结构冻结是在2018年3月,同年6月通过验证,2019年1月发布了勘误表1。截至2020年4月的第130届 MPEG 会议,VVC 和 EVC 都处于国际标准(FDIS)的最终草案阶段,预计将于今年获得批准。
版税
下一个要比较的内容是令人头疼的版税问题。除非你与世隔绝,否则你很可能已经意识到这是一个非常关键的问题。
AVC 的版税问题得到了很好的解决,并且已经有了一个众所周知的、廉价的版权许可模式。但是对于 HEVC 来说,情况要复杂得多。虽然 HEVC Advance联合了许多HEVC的专利持有方,并不断有更多的专利持有方加入,但MPEG LA 仍然代表着其他一些专利方。
Velos Media 还整合了更多的专利持有方,但仍然有一些专利方是独立且不属于上述任何专利池的。尽管在过去的几年里(在 HEVC 标准定稿后的五年多时间里) ,这些专利池终于推出了合理的许可模式,但是对于 HEVC 的版税,很多时候整个行业仍抱有“一朝被蛇咬,十年怕井绳”的心态,担心其他专利实体也会突然冒出来,并提出更多的知识产权要求。
AV1是解决版税问题的直接尝试,它创建了一个由行业巨头支持的免版税解决方案,甚至组建了一个法律辩护基金,以帮助那些可能因为所贡献技术牵涉专利纠纷而被起诉的小公司。
与法律辩护紧密相关的,是可能存在的第三方侵权事实,虽然AOM从未承诺为此进行赔偿,但大家也都默认如此——AOM既协助辩护、也负责提供赔偿。
直到3月初,Sisvel 宣布了一个由14家公司组成的专利池,这些公司拥有1000多项专利,Sisvel 声称这些专利对实施 AV1至关重要。大约一个月后,AOM 才发表了一份反对声明,声称其致力于一个免版权费的媒体生态系统。时间、大概还有相当多的律师,将决定这场特殊的战斗将如何结束(Sisvel宣布成立AV1专利池 1050项专利许可面临收费)。
VVC最初似乎走上了与 HEVC 同样的知识产权道路: 根据 MPEG 的规定,任何将知识产权贡献给该标准的个人或组织都必须签署一份公平、合理和非歧视(FRAND)许可协议。但是,正如曾经的经验所告诉我们的那样,这并不能保证适用于用来约束专利池或者专利代理机构。
不过,这一次业界采取了行动,成立了媒体编码行业论坛(MC-IF) ,这是2018年成立的一个开放型行业论坛,目的是进一步推广使用 MPEG 标准,最初侧重于 VVC。他们的目标,是为了消费者和行业的利益,建立一个被广泛接受和使用的标准。MC-IF下其中一个工作组正在定义“编码档子集”,这个标准子集包括无版税的算法工具或MC-IF能够作为所有相关知识产权许可的登记机构的算法工具。如果上述工作成功,我们可能会看到一个免版税或版税已知可控前提下的 VVC子集版本。
由三星、华为和高通为主要成员的EVC工作组,则直接在标准化过程中处理版税问题,采用两档方案组合实施。对于EVC-Baseline,只包含无专利版税的编码算法工具。这通常意味着所包含技术已经有20多年的历史,并且有出版物可举证。虽然这听起来像是一个相当棘手的约束,但是一旦你考虑到 AVC 技术都已经有20多年的历史了,而且这些年来已经积累了大量规避知识产权的方案,你就可以想的到满足上述约束而组成的编解码器仍然可以大大超过 AVC 的压缩效率。
就 EVC-Main 而言,它采用了已知专利权使用费的方法,即任何对EVC-Main所含算法工具提供知识产权的实体承诺在EVC标准草案定稿后的两年内,即在2022年4月之前,提供价格合理的许可证模式。
技术特点
现在我们已经讲明白了版税这个难以忽视的问题,接下来我们将突出展示一些编解码器特性,并看看不同的编解码器在这方面哪些不同。
所有这些编解码器使用一种基于图像块的混合编码方法,这意味着编码是通过将帧分割成块,对块像素进行预测,并计算预测值与实际值之间的差值,对得到的残差系数进行频域变换后实施量化,最后将这些量化后系数与附加数据(如用于预测的运动向量)一起进行熵编码,从而产生比特流。
图1显示了这种编码器的简化图。(译者注:“混合”是指上述编码框架中主要交替使用了预测算法与频域变换算法)
图1: 基于图像块的混合编码框架
编解码器改进的基本思路是一种“越多越好”的方法:更多的图像块尺寸和子块划分选项、更多的预测可能性、更多的频域变换核尺寸和变换类型,以及更多的附加工具,比如复杂的环路去块效应滤波器。
块划分
我们首先介绍各类编码器中所支持的图像块及其块划分方案。AVC 中的宏块(MB)单元尺寸总是16x16,HEVC 和EVC-Baseline中的编码树单元(CTU)尺寸最大可以是64x64,而 EVC-Main、 AV1和 VCC中的图像分块尺寸最大可支持128x128。随着块尺寸的增大,它们能够以越来越高的分辨率对平滑纹理区域进行高效编码。
关于块划分,在 AVC 中我们有固定大小的宏块(Macro-Blocks),而在 HEVC 中引入了四叉树划分,即允许将编码树单元(Coding-Tree-Unit)递归地划分为四个额外的子块。EVC-Baseline也支持同样上述方案。如图2中的示例分区所示:VVC在四叉树中增加了二叉树(2路)和三叉树(3路) ,从而增加了划分方案的可伸缩性。
EVC-Main还使用组合的 QT、 BT、 TT 方法,此外还有一个拆分单元编码顺序(Split Unit Coding Order)特性,允许EVC-Main以从右到左的顺序以及通常的从左到右的顺序执行子块的处理和预测。AV1使用略有不同的划分方法,支持每个编码块最多10次分割。
划分方案的另一个技术演进方向是其形状的灵活性。能够不对称地和沿对角线方式来划分块,可以隔离出图像内容区域中的局部变化,以创建高效和准确的子块划分。这种方法有两个重要的优点: 避免了对细粒度划分的需要,并且可以在不引入“阶梯”(“staircase”)效应的情况下正确地表示由斜线边缘分隔的两个对象。AV1中引入的楔形划分和 VVC 的几何划分都支持两个预测区域之间的对角划分,从而实现了非常精确的划分。
图2: 组合 QT (蓝色)、 TT (绿色)和 BT (红色)的分区示例
预测
优质的预测方案使得残差能量最小化,是提高压缩效率的一个重要手段。从 AVC 开始的所有视频编解码器都采用帧内预测和帧间预测,前者使用在当前图像帧中已经被编码和重建的像素进行预测,后者使用以前编码和重建的图像帧中的像素进行预测。
AVC 支持9种帧内预测模式,也就是当前块像素可以从位于左、上和右上方向的邻居块像素进行预测。EVC-Baseline只支持5种帧内预测模式,EVC-Main 支持33种,HEVC 定义了35种帧内预测模式,AV1支持56种,VVC 支持65种角度预测。
虽然“越多越好”模式可以提高压缩效率,但这直接影响编码复杂度,因为这意味着编码器在选择最佳模式时要做出更复杂的决定。AV1和 VVC 增加了额外的精细化帧内预测算法选项,例如 AV1中使用亮度分量预测色度分量,相类似的在 VVC 中有跨分量线性模型预测。另一个有趣的帧内预测算法工具是 INTRA Block Copy,它允许从当前图像帧内已编码和重建的部分中复制出一个完整的图像块,作为当前块的预测值。这种预测模式特别适用于具有复杂合成纹理的图像帧,并且在AV1、EVC-Main和VVC中都被支持。
而 VVC 通过扩展帧内预测块附近的像素数提供了一个更有限的方法。VVC还支持多参考行(Multiple Reference Lines)模式,用来扩充当前块周围可用于帧内预测的像素点数量。
不同的编码器使用的帧间预测其差别在于:所使用的参考帧数量、运动向量(MV)分辨率及与之相关的子像素插值滤波器、支持的运动划分和预测模式。对每个编码解码器中的各种帧间预测工具进行彻底的回顾远远超出了本文比较的范围,所以我们只会着重指出一些我们特别喜欢的新特性。
重叠块运动补偿(OBMC)最早在H.263的Annex F和 MPEG4 Part2中就引入,但并未包含在其任何编码档中,而现在AV1和 VVC 都支持该模式。这是一个出色的算法工具,可以在预测块边界两边的块使用不同的运动向量时,减少因为运动特征的不连续性而带来的预测偏差。
图3A: OBMC 示意图。
上面的图是常规的运动补偿,其中由于两个相邻的块使用参考帧中不同的图像部分进行预测,此时产生了不连续性;下面的图中OBMC 模式使用了预测块之间的重叠部分
图3B: OBMC 示意图。
放大到 OBMC 的中间和左边被展示的图像块之间的边界,显示交叉部分像素的两个预测值的平均。
块匹配运动预测方法的一个重要局限性是它无法表示非水平和垂直的运动,例如缩放或旋转。上述问题在AV1中使用了变形运动补偿(Warped Motion Compensation)来解决,在VVC中则更彻底地使用了6自由度的仿射运动补偿(Affine Motion Compensation)方案。EVC-main 进一步使用了3种仿射运动模式: 合并,以及4自由度和6自由度仿射运动补偿。
图4: 仿射运动预测
图片来源: Cordula Heithausen-Coding of Higher Order Motion Parameters for Video Compression - ISBN-13:978-3844057843
视频编解码器做的另一件事是基于以前搜索匹配到的运动向量值来预测当前块的运动向量。这减少了用于编码MV的字节数,有利于针对高粒度运动区域显著节省码率。另外,对运动向量的预测也有助于提高运动估计的效率。
五个编解码器都定义了各自计算运动向量预测值(MVP)的算法流程;尤其是,EVC-Main 在此基础上还参考了过往的运动向量预测值,而VVC 则进一步通过时空域信息来改进运动向量的预测。
变换
应用于残差数据的频域变换是“越多越好”方法的另一个应用领域。AVC使用4x4和8x8大小的DCT(Discrete Cosine Transform)变换,而 EVC-Baseline 增加了更多的变换核大小,范围从2×2 到 64×64。HEVC 增加了互补的DST(Discrete Sine Transform)变换,并支持从4×4 到 32×32的多尺寸变换核。AV1、 VVC 和 EVC-Main 都使用 基于DCT 和 DST 的变换,其变换核尺寸覆盖较大范围,且支持非正方形变换核。
滤波
环路滤波器通过去除相邻图像块在各自独立处理过程中产生的伪影,对改善基于块的编解码器的感知质量有着重要的贡献。AVC 使用一个相对简单的环路自适应去块效应(De-blocking, DB)滤波器,这也是EVC-Baseline中的做法,其来源于 H.263 Annex J定义的方案。
HEVC增加了一个附加的采样点自适应偏移(Sample Adaptive Offset ,SAO)滤波器,通过应用保存在比特流查找表中的像素值偏移量,可以更好地重建原始信号的幅度,从而提高图像质量,降低条带纹和振铃效应。
VVC使用类似的DB和SAO滤波器,并增加了一个自适应环路滤波器(Adaptive Loop Filter, ALF),以最小化原始样本和解码后样本之间的误差。这是使用基于Wiener的自适应滤波器实现的,其中合适的滤波器系数由编码器来决定、并准确标识给解码器使用。
EVC-main 使用了高级去块效应滤波器(ADvanced Deblocking Filter, ADDB)和ALF,并进一步引入一种哈达玛变换域滤波器(Hadamard Transform Domain Filter, HTDF),该滤波器在图像块重建后使用4个相邻样本对解码样本进行滤波。
AV1中的处理办法是,使用了一个常规的 DB滤波器和约束定向增强滤波器(Constrained Directional Enhancement Filter, CDEF),它可以去除锐利边缘附近的振铃噪声和基本噪声,这也是方向滤波器在视频编解码中的首次应用。AV1还使用 环内重建(Loop Restoration)滤波器,其中滤波器系数由编码器确定并传递给解码器。
熵编码
熵编码阶段在各个编解码器之间有所不同,部分原因是上下文自适应二进制算术编码(Context Adaptive Binary Arithmetic Coding, CABAC)有相关的版税。AVC提供了上下文自适应变长编码(Context Adaptive Variable Length Coding, CAVLC)和 CABAC两种模式。
HEVC 和 VVC 都使用 CABAC,但VVC 增加了一些改进办法来提高效率,比如更优的初始化而无需查找表(LUT),以及增加了 系数组(Coefficient Group)大小的灵活性。AV1使用非二进制(多符号)算术编码-这意味着熵编码必须在两个连续的步骤中执行,而这限制了并行化。
EVC-Baseline 使用JPEG附录D定义的二进制算术编码器(Binary Arithmetic Coder) 并与游程符号相结合,而 EVC-Main 使用位平面高级系数编码(bit-plane ADvanced Coefficient Coding, ADCC)的方法。
为了结束对重要特性的总结,我们还想提一些对特定场景有用的算法工具。例如,EVC-main 和 VVC 支持解码器端的运动向量细化(Decoder side MV Refinement, DMVR),这对于将部分编码复杂度拆分给解码器的分布式系统是有益的。
AV1和 VVC 都有非常适合屏幕内容编码的算法工具,例如支持调色板模式编码,AV1还支持 PNG 图像中使用的Paeth 预测。对胶片颗粒度合成(Film Grain Synthesis, FGS) 的支持(FGS最早在 HEVC 中引入,但不包括在任何编码档次中),是 AV1专业档的强制性要求,并被认为是对有颗粒效果的影片提供高质量、低比特率压缩的有价值的工具。
编解码器比较
压缩效率
也许最有趣的问题是在实际视频压缩中编解码器如何比较,或者每个编解码器的压缩效率是多少: 为了获得给定的图像质量,需要分配多少比特率;或者反过来,当分配给定的比特率时,能够获得怎样的图像质量。虽然这个问题相当简单,而且定义明确,但回答这个问题绝非易事。第一个挑战是定义测试条件——怎样的视频序列内容、以多少比特率、在怎样的编码模式下进行。
举一个简单的例子,当使用屏幕内容编码工具时,编码器将在由屏幕内容采集生成的视频序列上显示更多的优势。不同的视频序列选择、有无使用码率控制(视频标准本身并未定义如何实现码率控制) ,GOP 结构和其他配置参数都对编码结果有重大影响。
另一个明确答案的障碍是如何衡量质量。尽管PSNR与主观感知质量的相关性很差,但可悲的是 PSNR 仍然经常用于比较。但即使是更复杂的客观指标,如 SSIM 或 VMAF,也并不总是能准确地衡量视频的感知质量。另一方面,开展主观评价的代价很大,在大规模评测中并不实用,并且,当测试是不同的评测人员或者不同的地点进行,所获得的结果可能有所差异。
因此,你可以找到多如牛毛的对比结果,其中有的可能只是略有不同,而有的则甚至完全相反,而本文采用更保守的方法,在参考对比多方文献后给出一个估计的结果。
毫无疑问,在这些编解码器中,AVC 的压缩效率最低,而 VVC 的压缩效率最高。EVC-Baseline 的压缩效率似乎比 AVC 高30% 左右,与 HEVC 所提高的40% 则相差不远。AV1和 EVC-Main 很接近,至于到底哪一个更优秀很大程度上取决于进行测评操作的人。它们的压缩效率大约都比 VVC 低5-10% 。
计算复杂性
现在,我们来看看每个编码器的性能或计算复杂性。再次强调,这种比较是相当局限的,因为实际性能表现严重依赖于工程代码实现和测试条件,而非仅仅由标准定义的算法工具自身决定。编码算法并行计算的能力、用于测试的处理器的架构、视频内容类型(例如平缓运动或剧烈运动,或暗或亮),这些都还只是能够严重影响性能分析的其中几个因素而已。
例如,将x264配置为完全相同的预设值,然后在相同的视频内容上以低比特率和高比特率分别运行,其编码运行时间可能会存在4倍的差异。
在另一个例子中,如Beamr5 epic face off(https://blog.beamr.com/2017/09/08/x265-beamr-5-epic-face-off/)的博客文章显示,使用相同的测试序列,在编码图像质量相似的条件下,Beamr HEVC 编码器平均比 x265快1.6倍,而这两个编码器在整个测试序列文件内的编码帧率波动范围约为1.5倍。
如上所述,本文只是试图对几个编解码器之间的相对计算复杂度给出一个粗略估计。在这些编码器中,AVC 的复杂度绝对是最低的,EVC-Baseline 只是稍微增加一点。HEVC对编码器和解码器都有较高的性能要求。VVC 已经成功地将解码器复杂度与 HEVC保持几乎相同,但是编码复杂度明显更高,可能是所有5个编码器中最高的。
AV1也以其复杂性高而闻名,它的早期版本甚至引入了“每分钟帧数”(Frame Per Minute, FPM)来标记编码性能,而不是常用的“每秒帧数”(Frames Per Second, FPS)。尽管最近的版本做了很多改进,但是可以肯定地说,它的复杂度仍然明显高于 HEVC,而且可能仍然高于 EVC-Main。
总结
在下面的表格中,我们汇总了以上概述的一些编码器的特性。
结语
那么,结论是什么呢?不幸的是,生活变得越来越复杂,由1~2个主导的编解码器几乎覆盖所有行业的情况将不会再有。只有时间才能告诉我们哪一个会在未来5年内拥有最高的市场份额,但一个简单的预估是,由于 AVC 目前的市场份额在70% 左右,所以AVC短时间内不会被取代。 AV1发展的势头强劲,在行业巨头扶持下,我们将看到它在网络流媒体中的不少应用。至于其他方面,可以有把握地认为,VVC 和 EVC-Main 对压缩性能的改进、EVC-Baseline 诱人的版税免费,以及越来越多的设备在硬件模块中支持HEVC,这些都意味着将面临的新常态是:不得不在很多视频流媒体应用中支持多个编码器标准。