目前已有不少可应用于视频流媒体服务的视频编解码器,诸多的方案给视频服务商带来了选择困难症,因为他们需要为自己选择合适的编解码器,确保为用户传送的音画内容能具备尽可能好的质量和最低的比特率,同时还要考虑到编码器对计算资源的要求。我们
一、视频编码器的来源
目前应用最广泛的H264/265是来自联合视频专家团队(Joint Video Expert Team,JVET)制定的,主要有国际电信联盟-电信联盟视频编码专家组(ITU-T Video Coding Expert Group ,VCEG,)和国际标准化组织运动图像专家组 (ISO Moving Picture Experts Group ,MPEG)共同努力并制定联合标准。
AVC和 HEVC 都是通过这样一个步骤明确的流程孵化产生的:从 CfP (提案征集)开始,通过标准制定团队对每个提案算法工具的压缩效率和性能要求进行评估,直到建立一个拟议标准草案。经过几轮的编辑和修改,最终的草稿就会被批准,成为正式标准。这个过程非常有条理,并且经过长期实践证明可成功孵化出稳定可用的视频编解码器,AVC、HEVC 和 VVC 都是以这种方式创建的。
EVC 编解码器仅仅来自 MPEG,这可能与 ITU VCEG 历来都不赞成将版税问题纳为标准化过程的一部分有关,而对于 EVC 来说,正如我们将看到的,这正是最值得关注的问题之一。
视频编解码器的第二个来源是商业公司。典型的成功案例就是由谷歌开发的 VP9编解码器,作为 VP8的继承者,VP9编解码器由 On2 Technologies 公司(后来被谷歌收购)开发。此外,一些公司还试图推广开源、免版税、专利自主的编解码器,比如 Mozilla 的 Daala 或 BBC Research 的 Dirac。
编解码器的第三个来源,是在 ISO 或 ITU 等官方国际标准机构之外、独立运作的一个联盟或若干公司组成的工作组。AV1就是一个完美的例子,数家公司通过组建开放媒体联盟(AOM),协同创建了一种免版税的开源视频编码格式,并且主要面向互联网视频业务。
AOM 的创始成员包括谷歌(Google)(它贡献了 VP9技术)、微软(Microsoft)、亚马逊(Amazon)、苹果(Apple)、 Netflix、 FB、 Mozilla 等,还包括思科(Cisco)和三星(Samsung)这样的传统 “ MPEG 支持者”。
AV1编码器是从“实验”中构建出来的,每个候选的算法工具都被添加到参考软件中,并可以通过开关进行对比实验,从而使得算法工具进入最终标准定稿的决策过程非常具有灵活性。
二、视频编码标准发展时间线
2003年5月完成。10年后的2013年4月,HEVC 也终于完成。AV1码流结构冻结是在2018年3月,同年6月通过验证,2019年1月发布了勘误表1。截至2020年4月的第130届 MPEG 会议,VVC 和 EVC 都处于国际标准(FDIS)的最终草案阶段,预计将于2020年获得批准。
三、编解码器专利版权
(1)AVC 的版税问题得到了很好的解决,并且已经有了一个众所周知的、廉价的版权许可模式。
(2)对于 HEVC 来说,情况要复杂得多。虽然 HEVC Advance联合了许多HEVC的专利持有方,并不断有更多的专利持有方加入,但MPEG LA 仍然代表着其他一些专利方。Velos Media 还整合了更多的专利持有方,但仍然有一些专利方是独立且不属于上述任何专利池的。尽管在 HEVC 标准定稿后的五年多时间里 ,这些专利池终于推出了合理的许可模式,但是对于 HEVC 的版税,很多时候整个行业仍抱有“一朝被蛇咬,十年怕井绳”的心态,担心其他专利实体也会突然冒出来,并提出更多的知识产权要求。
(3) AV1是解决版税问题的直接尝试,它创建了一个由行业巨头支持的免版税解决方案,甚至组建了一个法律辩护基金,以帮助那些可能因为所贡献技术牵涉专利纠纷而被起诉的小公司。与法律辩护紧密相关的,是可能存在的第三方侵权事实,虽然AOM从未承诺为此进行赔偿,但大家也都默认如此——AOM既协助辩护、也负责提供赔偿。
直到2020年3月初,Sisvel 宣布了一个由14家公司组成的专利池,这些公司拥有1000多项专利,Sisvel 声称这些专利对实施 AV1至关重要。大约一个月后,AOM 才发表了一份反对声明,声称其致力于一个免版权费的媒体生态系统。时间、大概还有相当多的律师,将决定这场特殊的战斗将如何结束(Sisvel宣布成立AV1专利池 1050项专利许可面临收费)。
(4) VVC的专利问题目前与 HEVC 同样的知识产权道路: 根据 MPEG 的规定,任何将知识产权贡献给该标准的个人或组织都必须签署一份公平、合理和非歧视(FRAND)许可协议。但是,正如曾经的经验所告诉我们的那样,这并不能保证适用于用来约束专利池或者专利代理机构。
不过,这一次业界采取了行动,成立了媒体编码行业论坛(MC-IF) ,这是2018年成立的一个开放型行业论坛,目的是进一步推广使用 MPEG 标准,最初侧重于 VVC。他们的目标,是为了消费者和行业的利益,建立一个被广泛接受和使用的标准。MC-IF下其中一个工作组正在定义“编码档子集”,这个标准子集包括无版税的算法工具或MC-IF能够作为所有相关知识产权许可的登记机构的算法工具。如果上述工作成功,我们可能会看到一个免版税或版税已知可控前提下的 VVC子集版本。
(5)EVC主要成员三星、华为和高通,则直接在标准化过程中处理版税问题,采用两档方案组合实施。对于EVC-Baseline,只包含无专利版税的编码算法工具。这通常意味着所包含技术已经有20多年的历史,并且有出版物可举证。虽然这听起来像是一个相当棘手的约束,但是一旦你考虑到 AVC 技术都已经有20多年的历史了,且这些年来已经积累了大量规避知识产权的方案,你就可以想的到满足上述约束而组成的编解码器仍然可以大大超过 AVC 的压缩效率。
就 EVC-Main 而言,它采用了已知专利权使用费的方法,即任何对EVC-Main所含算法工具提供知识产权的实体承诺在EVC标准草案定稿后的两年内,即在2022年4月之前,提供价格合理的许可证模式。
四、视频编解码器的技术特点
上述的视频编解码器都是基于图像块的混合编码方法,这意味着编码是通过将帧分割成块,对块像素进行预测,并计算预测值与实际值之间的差值,对得到的残差系数进行频域变换后实施量化,最后将这些量化后系数与附加数据(如用于预测的运动向量)一起进行熵编码,从而产生比特流。
图1 混合视频编码框架图
编解码器改进的基本思路是一种“越多越好”的方法:更多的图像块尺寸和子块划分选项、更多的预测可能性、更多的频域变换核尺寸和变换类型,以及更多的附加工具,比如复杂的环路去块效应滤波器。
(1)各个编解码器块划分技术
AVC 中的宏块(MB)单元尺寸总是16x16;
HEVC 和EVC-Baseline中的编码树单元(CTU)尺寸最大可以是64x64,且额外引入四叉树划分,即允许将编码树单元(Coding-Tree-Unit)递归地划分为四个额外的子块;
而 EVC-Main、 AV1和 VCC中的图像分块尺寸最大可支持128x128,EVC-Main还使用组合的 QT、 BT、 TT 方法,此外还有一个拆分单元编码顺序(Split Unit Coding Order)特性,允许EVC-Main以从右到左的顺序以及通常的从左到右的顺序执行子块的处理和预测。VVC在四叉树中增加了二叉树(2路)和三叉树(3路) ,从而增加了划分方案的可伸缩性。AV1使用略有不同的划分方法,支持每个编码块最多10次分割。随着块尺寸的增大,它们能够以越来越高的分辨率对平滑纹理区域进行高效编码。
划分方案的另一个技术演进方向是其形状的灵活性。能够不对称地和沿对角线方式来划分块,可以隔离出图像内容区域中的局部变化,以创建高效和准确的子块划分。这种方法有两个重要的优点: 避免了对细粒度划分的需要,并且可以在不引入“阶梯”(“staircase”)效应的情况下正确地表示由斜线边缘分隔的两个对象。AV1中引入的楔形划分和 VVC 的几何划分都支持两个预测区域之间的对角划分,从而实现了非常精确的划分。
(2)预测技术
优质的预测方案使得残差能量最小化,是提高压缩效率的一个重要手段。从 AVC 开始的所有视频编解码器都采用帧内预测和帧间预测,前者使用在当前图像帧中已经被编码和重建的像素进行预测,后者使用以前编码和重建的图像帧中的像素进行预测。
A:帧内预测模式
AVC 支持9种帧内预测模式,也就是当前块像素可以从位于左、上和右上方向的邻居块像素进行预测;EVC-Baseline只支持5种帧内预测模式;
EVC-Main 支持33种,HEVC 定义了35种帧内预测模式,AV1支持56种;VVC 支持65种角度预测。
虽然“越多越好”模式可以提高压缩效率,但这直接影响编码复杂度,因为这意味着编码器在选择最佳模式时要做出更复杂的决定。AV1和 VVC 增加了额外的精细化帧内预测算法选项,例如 AV1中使用亮度分量预测色度分量,相类似的在 VVC 中有跨分量线性模型预测。另一个有趣的帧内预测算法工具是 INTRA Block Copy,它允许从当前图像帧内已编码和重建的部分中复制出一个完整的图像块,作为当前块的预测值。这种预测模式特别适用于具有复杂合成纹理的图像帧,并且在AV1、EVC-Main和VVC中都被支持。而 VVC 通过扩展帧内预测块附近的像素数提供了一个更有限的方法。VVC还支持多参考行(Multiple Reference Lines)模式,用来扩充当前块周围可用于帧内预测的像素点数量。
B:帧间预测模式
1)不同的编码器使用的帧间预测其差别在于:使用的参考帧数量、运动向量(MV)分辨率及与之相关的子像素插值滤波器、支持的运动划分和预测模式。
重叠块运动补偿(OBMC)最早在H.263的Annex F和 MPEG4 Part2中就引入,但并未包含在其任何编码档中,而现在AV1和 VVC 都支持该模式。这是一个出色的算法工具,可以在预测块边界两边的块使用不同的运动向量时,减少因为运动特征的不连续性而带来的预测偏差。
上面的图是常规的运动补偿,其中由于两个相邻的块使用参考帧中不同的图像部分进行预测,此时产生了不连续性;下面的图中OBMC 模式使用了预测块之间的重叠部分
放大到 OBMC 的中间和左边被展示的图像块之间的边界,显示交叉部分像素的两个预测值的平均。
2)块匹配运动预测方法的一个重要局限性是它无法表示非水平和垂直的运动,例如缩放或旋转。上述问题在AV1中使用了变形运动补偿(Warped Motion Compensation)来解决,在VVC中则更彻底地使用了6自由度的仿射运动补偿(Affine Motion Compensation)方案。EVC-main 进一步使用了3种仿射运动模式: 合并,以及4自由度和6自由度仿射运动补偿。
3)视频编解码器做的另一件事是基于以前搜索匹配到的运动向量值来预测当前块的运动向量。这减少了用于编码MV的字节数,有利于针对高粒度运动区域显著节省码率。另外,对运动向量的预测也有助于提高运动估计的效率。五个编解码器都定义了各自计算运动向量预测值(MVP)的算法流程;尤其是,EVC-Main 在此基础上还参考了过往的运动向量预测值,而VVC 则进一步通过时空域信息来改进运动向量的预测。
4、变换技术
用于残差数据的频域变换是“越多越好”方法的另一个应用领域。
AVC使用4x4和8x8大小的DCT(Discrete Cosine Transform)变换;
EVC-Baseline 增加了更多的变换核大小,范围从2×2 到 64×64;
HEVC 增加了互补的DST(Discrete Sine Transform)变换,并支持从4×4 到 32×32的多尺寸变换核。
AV1、 VVC 和 EVC-Main 都使用 基于DCT 和 DST 的变换,其变换核尺寸覆盖较大范围,且支持非正方形变换核。
5、滤波技术
环路滤波器通过去除相邻图像块在各自独立处理过程中产生的伪影,对改善基于块的编解码器的感知质量有着重要的贡献。
AVC 使用一个相对简单的环路自适应去块效应(De-blocking, DB)滤波器,这也是EVC-Baseline中的做法,其来源于 H.263 Annex J定义的方案。
HEVC增加了采样点自适应偏移(Sample Adaptive Offset ,SAO)滤波器,通过应用保存在比特流查找表中的像素值偏移量,可以更好地重建原始信号的幅度,从而提高图像质量,降低条带纹和振铃效应。
VVC使用类似的DB和SAO滤波器,并增加了一个自适应环路滤波器(Adaptive Loop Filter, ALF),以最小化原始样本和解码后样本之间的误差。这是使用基于Wiener的自适应滤波器实现的,其中合适的滤波器系数由编码器来决定、并准确标识给解码器使用。
EVC-main 使用了高级去块效应滤波器(ADvanced Deblocking Filter, ADDB)和ALF,并进一步引入一种哈达玛变换域滤波器(Hadamard Transform Domain Filter, HTDF),该滤波器在图像块重建后使用4个相邻样本对解码样本进行滤波。
AV1中的处理办法是,使用了一个常规的 DB滤波器和约束定向增强滤波器(Constrained Directional Enhancement Filter, CDEF),它可以去除锐利边缘附近的振铃噪声和基本噪声,这也是方向滤波器在视频编解码中的首次应用。AV1还使用 环内重建(Loop Restoration)滤波器,其中滤波器系数由编码器确定并传递给解码器。
6、熵编码技术
熵编码阶段在各个编解码器之间有所不同,部分原因是上下文自适应二进制算术编码(Context Adaptive Binary Arithmetic Coding, CABAC)有相关的版税。
AVC提供了上下文自适应变长编码(Context Adaptive Variable Length Coding, CAVLC)和 CABAC两种模式。
HEVC 和 VVC 都使用 CABAC,但VVC 增加了一些改进办法来提高效率,比如更优的初始化而无需查找表(LUT),以及增加了 系数组(Coefficient Group)大小的灵活性。
AV1使用非二进制(多符号)算术编码-这意味着熵编码必须在两个连续的步骤中执行,而这限制了并行化。
EVC-Baseline 使用JPEG附录D定义的二进制算术编码器(Binary Arithmetic Coder) 并与游程符号相结合,而 EVC-Main 使用位平面高级系数编码(bit-plane ADvanced Coefficient Coding, ADCC)的方法。
有些视频编解码器对一些对特定场景有用的算法工具。例如,EVC-main 和 VVC 支持解码器端的运动向量细化(Decoder side MV Refinement, DMVR),这对于将部分编码复杂度拆分给解码器的分布式系统是有益的。
AV1和 VVC 都有非常适合屏幕内容编码的算法工具,例如支持调色板模式编码,AV1还支持 PNG 图像中使用的Paeth 预测。对胶片颗粒度合成(Film Grain Synthesis, FGS) 的支持(FGS最早在 HEVC 中引入,但不包括在任何编码档次中),是 AV1专业档的强制性要求,并被认为是对有颗粒效果的影片提供高质量、低比特率压缩的有价值的工具。
五 视频编解码器比较
1、各个视频编码器的压缩效率
也许最有趣的问题是在实际视频压缩中编解码器如何比较,或者每个编解码器的压缩效率是多少: 为了获得给定的图像质量,需要分配多少比特率;或者反过来,当分配给定的比特率时,能够获得怎样的图像质量。虽然这个问题相当简单,而且定义明确,但回答这个问题绝非易事。
第一个挑战是定义测试条件——怎样的视频序列内容、以多少比特率、在怎样的编码模式下进行。 举一个简单的例子,当使用屏幕内容编码工具时,编码器将在由屏幕内容采集生成的视频序列上显示更多的优势。不同的视频序列选择、有无使用码率控制(视频标准本身并未定义如何实现码率控制) ,GOP 结构和其他配置参数都对编码结果有重大影响。
第二个明确答案的障碍是如何衡量质量。尽管PSNR与主观感知质量的相关性很差,但可悲的是 PSNR 仍然经常用于比较。但即使是更复杂的客观指标,如 SSIM 或 VMAF,也并不总是能准确地衡量视频的感知质量。另一方面,开展主观评价的代价很大,在大规模评测中并不实用,并且,当测试是不同的评测人员或者不同的地点进行,所获得的结果可能有所差异。因此,你可以找到多如牛毛的对比结果,其中有的可能只是略有不同,而有的则甚至完全相反,而本文采用更保守的方法,在参考对比多方文献后给出一个估计的结果。
在这些编解码器中,AVC 的压缩效率最低,而 VVC 的压缩效率最高。EVC-Baseline 的压缩效率似乎比 AVC 高30% 左右,与 HEVC 所提高的40% 则相差不远。AV1和 EVC-Main 很接近,至于到底哪一个更优秀很大程度上取决于进行测评操作的人。它们的压缩效率大约都比 VVC 低5-10% 。
2、计算复杂性
现在,我们来看看每个编码器的性能或计算复杂性。再次强调,这种比较是相当局限的,因为实际性能表现严重依赖于工程代码实现和测试条件,而非仅仅由标准定义的算法工具自身决定。编码算法并行计算的能力、用于测试的处理器的架构、视频内容类型(例如平缓运动或剧烈运动,或暗或亮),这些都还只是能够严重影响性能分析的其中几个因素而已。
例如,将x264配置为完全相同的预设值,然后在相同的视频内容上以低比特率和高比特率分别运行,其编码运行时间可能会存在4倍的差异。
在另一个例子中,如Beamr5 epic face off(https://blog.beamr.com/2017/09/08/x265-beamr-5-epic-face-off/)的博客文章显示,使用相同的测试序列,在编码图像质量相似的条件下,Beamr HEVC 编码器平均比 x265快1.6倍,而这两个编码器在整个测试序列文件内的编码帧率波动范围约为1.5倍。
如上所述,本文只是试图对几个编解码器之间的相对计算复杂度给出一个粗略估计。在这些编码器中,AVC 的复杂度绝对是最低的,EVC-Baseline 只是稍微增加一点。HEVC对编码器和解码器都有较高的性能要求。VVC 已经成功地将解码器复杂度与 HEVC保持几乎相同,但是编码复杂度明显更高,可能是所有5个编码器中最高的。
AV1也以其复杂性高而闻名,它的早期版本甚至引入了“每分钟帧数”(Frame Per Minute, FPM)来标记编码性能,而不是常用的“每秒帧数”(Frames Per Second, FPS)。尽管最近的版本做了很多改进,但是可以肯定地说,它的复杂度仍然明显高于 HEVC,而且可能仍然高于 EVC-Main。
六:总结
七:结语
视频编码的需求变得越来越复杂,由1~2个主导的编解码器几乎覆盖所有行业的情况将不会再有。只有时间才能告诉我们哪一个会在未来5年内拥有最高的市场份额,但一个简单的预估是,由于 AVC 目前的市场份额在70% 左右,所以AVC短时间内不会被取代。 AV1发展的势头强劲,在行业巨头扶持下,我们将看到它在网络流媒体中的不少应用。至于其他方面,可以有把握地认为,VVC 和 EVC-Main 对压缩性能的改进、EVC-Baseline 诱人的版税免费,以及越来越多的设备在硬件模块中支持HEVC,这些都意味着将面临的新常态是:不得不在很多视频流媒体应用中支持多个编码器标准。
参考链接:
https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/107053696