与金山云的樊博士聊了聊AV1算法优化以及如何提升"沉浸式"视频的沉浸感

讲师介绍

樊鸿飞，金山云高级研发总监，北京大学计算机科学与技术专业博士，负责视频云的VR、视频编码、人工智能等技术线研发，近年来主要从事沉浸式视频、视频编码、图像处理、计算机视觉方向上的研究与技术落地，主要研究与应用成果发表于国际顶级期刊IEEE TIP、IEEE TCSVT、IEEE TMM等。

以下内容由LiveVideoStack与樊鸿飞的采访整理而成。

AV1算法优化

LiveVideoStack：作为AOM的成员之一，今年金山云在AV1算法优化方面，又做了哪些研发工作？取得了哪些成果，有具体的数据/产品功能可以分享吗？

樊鸿飞：金山云持续在 AV1 编码速度上进行了优化，较去年年中编码速度再翻倍，几乎没有客观画质损失，超过开源的 AOM和SVT-AV1。同时，逐步完善各种码控模式，满足点播场景需要。另外，AV1在主观画质上也有一个版本的迭代，在PSNR loss 不足1%的情况下，提升VMAF的BD-RATE性能20%以上。

提升沉浸感

LiveVideoStack：在沉浸式视频中，人眼对视频沉浸感的要求越来越高，金山云如何满足用户在这方面的需求？以及如何检测人眼感兴趣的地方？

樊鸿飞：提升沉浸感的根源在于传输更高分辨率的图像画面，金山云在确保画面质量的前提下，提供110+°广角、360°全景的4K/8K视频的实时编码/渲染能力。同时，我们采用高清+低清的双路流方案，在画面边缘（偏离视轴最远处）使用低清画面，达到更大的视角覆盖率，能够显著提升画面沉浸感。

在ROI方面，我们使用基于人工智能的显著度度量+目标检测算法，来识别100多种人眼显著的图像内容区域，对这些像素区域分配较低的QP来提升画质。

除此之外，我们更关心人眼敏感的低频区域，针对空域和时域两个维度来考虑，当空域高频集中或者时域运动过快的区域，都可以进行码率上的节省，相反对于人眼敏感的频域部分都会进行像素级的保护。

LiveVideoStack：您认为沉浸式视频在超高清转码下的平均延迟目前大概是多少？真正的沉浸体验目标延迟是多少？您认为多少是优秀，多少是及格？

樊鸿飞：一般情况下，沉浸式视频要求具备超高清和低延迟互动两个能力。针对弱互动来说，延迟一般可以允许高于3000ms；对于一些低延迟直播，例如主播需要根据情况及时回应观众的弹幕、打赏信息等场景，一般需要800ms~1200ms左右的延迟；对于中互动场景，例如主播之间的连麦，需要400ms~800ms；对于强互动来说，是对延迟零容忍的，比如视频会议，甚至更高要求的云游戏，则需要延迟低于400ms。

对于低延迟直播，仍然能够允许在云端进行转码处理，但处理总延迟不能高于100ms。对于众互动甚至强互动的应用场景下，已经开始需要在终端完成全部处理，终端的整体处理延迟不能超过200ms，一般留给编码器的延迟不能高于80ms。

因此，对于云端来说，100ms以下的处理延迟我们认为是及格；对于终端来说，80ms算及格。关于云游戏这样极端的体验来说，整体编码延迟不能超过12ms，因此只有编码器能够达到12ms以内的延迟，才能算作优秀。

LiveVideoStack：您认为目前5G技术对沉浸式视频的助力有多大？助力点具体体现在哪些方面？您如何看待它的未来趋势？

樊鸿飞：首先，5G的移动边缘计算（MEC)、网络切片等技术特性能够极大降低边缘推拉流产生的链路延迟，尤其是在一些类似于FOV这种终端跟边缘需要进行频繁上下行通信的场景中将产生非常大的增益。

其次，5G的大带宽将使得终端能够轻易的获取8K乃至12K、16K的码流，而更大的分辨率意味着更强的沉浸感。

最后，5G的高速率低延迟将催生出大量沉浸式直播应用场景，而受限于4G的局限性，这些场景在当下是十分稀缺的。

可以预见的是，沉浸式视频在未来与5G将具备非常深层次的绑定关系，很多沉浸式视频技术也将基于5G得到迅速发展，例如全景VR、3D视觉、6DoF等等。就像3G催生出移动互联网普及、4G催生出短视频/RTC等应用，在5G场景下，沉浸式视频将是一个非常重要的爆发点。

LiveVideoStack：您认为金山云视频云在行业内的竞争优势是什么？

樊鸿飞：金山云视频云致力于为客户提供高画质、低延迟、智能化的沉浸式视频云服务，除了我们的高稳定性、资源弹性、7*24小时售后服务体系、成熟完善的重保流程体系之外，金山云视频云在画质、卡顿率两个核心指标上出类拔萃。在这其中，视频编码则是我们算法的核心部分，为了打造最好的主观画质，我们先后推出金山云魔镜平台、KPA（Kingsoft Cloud Perceptual Assessment）无参考主观评价指标等服务，同时利用KPA持续优化我们的编码算法，致力于在相同码率下达到最优主观画质。

对泛娱乐领域的期待

LiveVideoStack：除去已经被多次讨论的在线教育、语音社交等领域，在您看来，音视频行业还有哪些领域将迎来井喷式的发展？

樊鸿飞：我认为音视频行业在泛娱乐领域的发展还并没有完成，我仍然看好其在泛娱乐行业的增长。从性能指标来看，延迟、卡顿、画质等指标均尚未满足云游戏的要求。未来的终端会往更轻便、低功耗的方向发展，终端的功能也会更加倾向于与现实的交互能力与显示视频的能力。很多应用都会以视频流的形式传输到终端，让终端来进行显示和交互。但是目前的延迟还无法比拟直接在终端上进行计算，从而对诸多应用有了限制。因此，当技术迈过了延迟、卡顿、画质这三个核心指标之后，以云游戏为首的云端渲染、终端显示的新模式将在泛娱乐行业迎来爆发式的增长。

大会分享预告

LiveVideoStack：对于本次 LiveVideoStackCon 2021 上海站的分享，您会带来哪些令人期待的具体内容呢？

樊鸿飞：这次LVS2021上海站，我将分享在超高清沉浸式视频应用中，我们对编码器的性能做的优化。由于沉浸式视频的超高分辨率，这个场景对编码器提出了很高的要求，需要编码器在有限的码率内保证高清晰度的编码质量。客观指标（如PSNR、SSIM）对视频质量的衡量是有局限性的，因此对客观指标下的视频编码优化无法达到主观画质的最优。金山云通过预处理、JND、全景视频投影转换等算法，考虑人眼对不同频域的感知，最优化相同码率下的主观画质，持续为用户提供优质的直播、点播服务。

编辑：Teresa Li

Pic from Canva

与金山云的樊博士聊了聊AV1算法优化以及如何提升"沉浸式"视频的沉浸感

AV1算法优化

提升沉浸感

对泛娱乐领域的期待

大会分享预告

你可能感兴趣的:(人工智能视频编码音视频)