LiveVideoStackCon2018干货分享(二)————编码篇之AVS3

接上篇编码篇之AV1

1.2 AVS3

这篇讲稿的演讲者是国内视频编码权威马思伟老师,但是没有分享其PPT,所以本节全部是现场照片。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第1张图片

首先列出了视频编码标准发展历程的timeline,VVC、AV1、AVS3齐头并进。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第2张图片

作者把AVS2、H.265都划分到了第三代视频编码标准中,把AVS3、VVC划分成新一代视频编码中,代际之间比特率减少50%。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第3张图片

这页PPT很有观点,视频编码目标不再单一的追求极致的压缩算法,而是多维度视频发展方向。帧率被称为时间分辨率,MVC被称为视点数,全景被称为视场范围,比特位数称为采样精度,色彩空间称为色域,此外还在模型数据维度中提到了点云,为真实视频与虚拟图像的融合提供了参考。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第4张图片

视频编码贡献者经历了从二十年前的高校主导,再到十年前的企业主导,再到现在互联网公司主导的变迁。VVC都有字节跳动的身影了,资本的力量推动着技术的发展啊。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第5张图片

VTM是VVC官方参考代码,由这页PPT可以看出为性能增益提高最多的技术是宏块的划分方式(8%)和环路滤波(4.99%),至于量化、仿射、变换、自适应MV精度也各自贡献了1~3%的性能增益。从编码耗时角度来说,宏块划分和变换最为耗时;从解码耗时角度来说,自适应滤波和仿射变换最为耗时。这能给算法优化工程师一个优化优先级的参考。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第6张图片

先从VVC技术讲起,VVC中的很多提案都是基于深度学习来做的,提案的贡献者包括中国高校、高通、联发科、HHI,主要是用CNN来辅助模式划分决策。AV1、AVS3(下文将会介绍)亦是如此。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第7张图片

神经网络应用在帧内预测上,仅三个隐藏层全连接。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第8张图片

这页PPT是技术亮点,QTBT的总深度是QT深度x2+BT深度(前两层是四叉树,第三层是二叉树),QTBT划分的选择是比较耗费时间的,因为每种模式都要计算一下最终的码率与失真,才能选出最优的模式,用CNN可以辅助快速实现这一过程。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第9张图片

深度学习预测的最大深度(编码码树的深度不是神经网络的深度)为di,所有di为0,则实际深度depth<2四叉树二叉树继续递归向下划分;若有一个di不是0,则无限制的四叉树二叉树递归向下划分;其他情况则只四叉树划分或不划分。详细过程还需要读其论文才能搞懂。但测试结果BDrate(PSNR SSIM BD-rate BD-PSNR) 应该是越小越好,这里不仅增加而且Proposed比JVET的还多,所以不太理解。此外delta ET和NetT也是很不清楚。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第10张图片

以上是北大在VVC的工作,以下是AVS,从AVS工作模式可见还是想设置专利壁垒,需要IPR部门实现技术变现。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第11张图片

比较重磅的结论,国家检测机构得出AVS2比源质量下降2.9%,HEVC比源质量下降3%,AVS2以0.1%胜出。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第12张图片

AVS2的开源实现cavs2和x264、x265在压缩效率上(veryslow)和编码效率上(superfast)的对比。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第13张图片

AVS3标准的目标:编码效率提升一倍;应用:8K、VR、流媒体;计划:2019年v1,2021年v2。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第14张图片

针对运动的优化思路:自适应预测划分和自适应运动预测来解决块运动不擅长的非平移问题,旋转、缩放与不规则内容。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第15张图片

块划分是基于多树且非对称的划分。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第16张图片

衍生预测模式更加多变。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第17张图片

第一阶段先实现一种EQT,和HEVC一样,PU、TU必须与CU一致。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第18张图片

同AV1一样有了仿射运动补偿。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第19张图片

运动矢量精度不再一成不变,需要自适应去调整精度。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第20张图片

算法原理并不复杂,近区域高精度,远区域低精度。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第21张图片

对矢量精度是可选择的,比AV1还多1/4和4两种选择。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第22张图片

先建立仿射模型,再进行推导实现补偿。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第23张图片

运动矢量预测在时间空间上都需要更多参考候选。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第24张图片

HMVP大概类似于HEVC的AMVP,在预测中有更多的参考候选。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第25张图片

运动矢量修正方面在解码端上不同厂商会有差异化体现(H.264时代不同解码器的修正算法不同,同一码流解码出来的效果就有细致差异)。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第26张图片

在帧间预测上引入了知识图像这一概念,就像是从序列中的随机访问点(RA)提炼出来的内容,在时间上是大跨度预测编码。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第27张图片

变换演进历程主要是更多变换基,如各种各样的DST、DCT。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第28张图片

和AV1类似,AVS3行变换列变换组合一共4组,AV1较多是16种。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第29张图片

变换基(变换核)的选择是取决于inter块的尺寸、位置以及RDO决策的。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第30张图片

环路滤波的演进历程主要是更多方向、更高精度的自适应环路滤波器(ALF)。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第31张图片

对于高质量图像重建需要组合滤波,类似的块可进行相似滤波

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第32张图片

这是除了宏块划分决策的第二个智能,即智能编码,通过CNN网络从重建残差和待滤波的重建像素值中训练处最终滤波后的像素值,不清楚训练集会是什么样。

LiveVideoStackCon2018干货分享(二)————编码篇之AVS3_第33张图片

AVS3的代码实现可看出比AVS2在BDPSNR上有很大的提升(BDR-Y/U/V与BD-PSNR应该是相反的吗?后者是正值且越大越好,前文BDRate也有类似疑问)。

你可能感兴趣的:(LiveVideoStackCon2018干货分享(二)————编码篇之AVS3)