本次采访我们邀请到了金山云的算法架构师樊鸿飞,主要负责金山云视频编解码、集智高清、图像增强、图像压缩等产品的研发,在采访中樊博士回顾了自己多年技术研究的心得,也针对AV1当前的生态发表了自己的看法,对于即将到来的5G时代,我们有理由相信金山云已经做好的充足的准备。
文 / 樊鸿飞
整理 / LiveVideoStack
LiveVideoStack:樊鸿飞你好,感谢接受LiveVideoStack的采访,能否向LiveVideoStack的读者简单介绍下自己。
樊鸿飞:你好,我目前在金山云担任算法架构师,是视频云部门的视频编解码以及AI算法负责人,涉及的方向主要包括视频编码、计算机视觉、图像处理、图像压缩。我博士毕业于北京大学信息科学技术学院,本科毕业于上海交通大学软件学院。我在博士期间的研究方向主要是视频编码、计算机视觉以及特征编码。
LiveVideoStack:从你的个人经历来看,近年来主要从事视频编码、图像处理、计算机视觉方向上的研究,从技术发展的角度来看有没有令你印象深刻的事情?
樊鸿飞:我印象比较深刻的是,做技术研究需要结合当前阶段的实际情况考虑。从一个细节来举例,随着网络带宽的变化,云转码的码控策略是在发生变化的。
在弱网环境下,最需要解决的是QoS的卡顿率高的问题,不是网络传输成本。此时云转码经常使用cbr码控策略。然而,这种策略无论是在实践中,或是在paper里,都很难达到定QP的编码水准,特别是在包含复杂场景切换的时候。
随着网络带宽的增长,卡顿率已经比较低,转码后成本已经变得更加重要了,这种情况下,最常见的云转码使用的是crf码控策略,这种策略实现起来非常简单,并且rd性能往往优于cbr很多。
不过,cbr也并非没有研究意义,相反在RTC的会议通信里仍有很大的研究价值,只是在云转码场景中用的不多了。因此,技术的研究需要考虑整个时代技术的发展,想明白真正的使用场景,盲目的进行优化有可能会走弯路。
LiveVideoStack:说说目前你在金山云负责的工作和研究方向吧。
樊鸿飞:目前主要是负责两部分,一个是视频云转码,一个是AI算法。
云转码方面主要是编解码器优化,目前我们除了在做H.264、H.265的持续优化以外,也开始进军AV1。我们认为AV1是更好的4K/8K视频编码解决方案,是对5G时代进行的探索。
AI算法方面,关心过金山云的朋友们应该或多或少听说过我们的集智高清产品。集智高清主要是利用AI对视频进行分析,解决了三大传统云转码算法解决不了的难题:1)低清视频恢复问题;2)码率分辨率智能决策问题;3)编码器全局优化问题。除了集智高清之外,我们也在做基于AI的有参考评价指标,在这方面金山云有很长时间的积累,对内使用时表现的不错,未来可能会公开我们的算法,大家可以期待一下。其他的应用还有视频标签、智能封面、精彩集锦、去水印、智能审核等。
LiveVideoStack:金山云的集智高清产品目前在行业中属于什么水平?集智高清适合于哪些场景的落地?能给金山云云转码带来了哪些用户体验的提升?
樊鸿飞:目前金山云的集智高清产品处于行业领先的水平,在UGC短视频场景下可以做到行业领先。
在刚才的问题里也提及了,传统编码器做云转码存在三个问题,利用AI+编码技术可以为所有的转码场景提供更高的压缩率。我们所推出的集智高清产品可以适用于绝大部分视频场景,包括秀场、电影、监控、教育、综艺、体育等等。另外,由于低清视频转码提升很明显,所以最大增益的场景还是低清的UGC短视频,这也是目前使用集智高清服务数量最多的用户场景。
对于使用集智高清的用户来说,根据我们测试的结果,首先因为码率的降低,在点播和直播的QoS上有很大的提升,包括首帧、卡顿率、卡顿时间等;其次在主观上存在增益,一方面块级智能决策可以很好地避免块效应,减少低清视频比率,降低产生用户反感的块效应的可能性,另一方面利用AI的修复能力能够有效避免第一次编码可能造成的压缩噪声,同时也可以对人脸等关键区域进行修复,去除运动模糊,还能够利用帧间信息修复因对焦失真产生的模糊。
LiveVideoStack:AI在编码生态中的哪些场景的应用你会比较看好,比如前处理、编码、深度网络直接压缩算法、后处理等?
樊鸿飞:目前AI在上述提到的方向中多多少少都有应用。
在前处理中,摄像头本身就自带ISP,没有做前处理的裸流会存在很多问题,因此这是一个研究了很久的方向。如果是云转码的话,不进行前处理很可能首次编码的压缩噪声会被编码器当作信息量进行编码,从而带来额外的码率。另外超分辨率算法可以应用在前处理中,形成解码+超分+编码的云转码流程,提供更清晰的视频体验。
在后处理中,我认为目前AI应用于编码标准的环内滤波比较难,毕竟有低端设备可能解码解不动。但是如果将AI应用于环外滤波,就具有更大的灵活性,低端设备可以选择不做处理,高端设备进行处理。当然这两种滤波对应的策略也有所不同,环内滤波可以着重去除编码留下的压缩噪声,给后续帧提供更好的参考帧,而环外滤波可以做一些对比度增强、暗场增强等等。
在编码方面,利用深度学习可以做全局优化,因为基于率失真的编码器优化是一种局部最优策略,无法做到全局最优,特别是对于AV1存在非对称块划分,深度学习的块划分可以带来性能提升。
在利用网络直接做End-to-End压缩方面,虽然已有算法在Intra编码上采用该策略,但是目前尚且没有基于该策略的视频编码算法出现。不过在视频编码中Intra的码率占比并不高,对于图像压缩来说带来的增益尚不足以弥补解码负担增大带来的副作用,目前看这还是一个需要继续探索才能大规模商用的方向。
总之,我觉得AI在编码当中的应用还是比较广泛的,只是在研究之前还是需要尽量避免拿着锤子找钉子的情况。
LiveVideoStack:与同类的音视频服务平台相比,金山云的技术特色有哪些?
樊鸿飞:这是一个很棒的问题。首先,金山视频云在直播、点播CDN质量上处于领先地位,行业排名前茅。在稳定性上,我们承诺提供大主播保障能力、重大事件及赛事重保方案。金山视频云具备完善的监控和告警体系,为客户提供7x24小时售后服务。在视频编码方面,KSC265编码速度及压缩率处于行业领先水平,结合AI的集智高清可以支持在同画质下压缩率达到60%的云转码服务,为客户提供最优成本下的高清体验。除此之外,还有PCDN支持,KCP内部链路加速,支持QUIC协议通道等等也都提供了更好的支持。
LiveVideoStack:金山云目前正积极推动新一代视频编码技术AV1有哪些落地的产品和方案?这些产品面向哪些场景和用户?
樊鸿飞:AV1相较于H.265来说具备更好的专利生态。下图是目前金山AV1的转码效果。在原始3.3M码率的游戏视频下,编码器压缩至0.67M时(压缩率80%),H.265已经产生块效应,但AV1能保证更好的主观效果。
目前金山云的AV1是以云转码服务为主,未来还是会提供私有化部署。我们的基于AV1的云转码服务对于这三类用户将更有吸引力。
第一类是对专利费敏感型的用户,AV1相较于H.265来说具备更好的专利生态,因此在这一点上AV1相对于H.265还是有比较大的优势;
第二类是Web端有大量播放需求的用户,H.265的专利问题使得常用的浏览器内核比如Chrome、Firefox均不支持H.265解码。
第三类是适合有4K及以上分辨率视频的用户,因为AV1对大分辨率视频的支持要更好,然而对于UGC低清视频, 在UGC视频分辨率和质量提升之前,金山云集智高清也将提供基于AV1的低清视频解决方案。
LiveVideoStack:5G时代的来临视频体量呈爆炸式增长,这对云转码技术也提出了更高的要求,金山云在视频云转码领域深耕多年,都做了哪些准备?除了云转码以外,金山云还有什么新产品来应对来临的5G时代?
樊鸿飞:5G时代的视频一定是高清高分辨率的。5G时代初期的一大痛点就是成本高,一是获取高清视频的成本高,二是传输存储高清视频的成本高,三是5G网络建设成本高。金山视频云在解决前两个难题上都有所准备。
针对获取高清视频来说,我们于2018年发布了画质增强KIE(Kingsoft Image &AI Enhancement)产品,将其应用于移动终端或图片传输中,可为用户带来超清的图像视觉体验或节省图片传输带宽成本,并已集成在了小米手机MUI中。我们关于超分辨率的研发脚步从来没有停止,目前KIE已经实现利用GAN来生成以假乱真的细节。除此之外,我们通过在超分辨率模型中融合时域信息达到了去运动模糊、HDR等效果,能为广大视频用户生成更真实的4K/8K视频。
针对高清高分辨率视频的压缩,AV1是我们迎接5G时代的另一个准备。AV1作为下一代视频编码标准,宏块大小从64x64增大到了128x128,同时具有非对称块划分,这些都是为4K甚至8K视频量身定制的模式。在高分辨率视频中,AV1具备比上一代编码标准更大的优势。在H.265的时代,金山云就处于行业领先水平,借助数年积累的编解码经验,我们将为客户提供完善的、极致压缩率的全链路4K/8K视频编解码服务。
除了上述两点,由于5G有着低时延、高带宽等特点,将催生大量新的应用和场景,会对网络性能提出更高要求,因此需要新的网络技术和架构,以满足这些新应用的需求。边缘计算就是为了满足不同应用带来的多样化网络需求的核心技术之一。在5G时代,通过在传输网架构中引入边缘计算技术,可降低时延和带宽传输成本,提高内容分发效率和用户体验,避免因大流量应用(如8K视频、VR等)的数据回传占用大量带宽,从而造成网络拥堵甚至崩溃的问题。作为视频行业公认的云服务领军企业,金山云依托顶级的基础设施和技术积累,不断引领行业发展。
针对上述问题和需求,金山云CDN结合边缘计算向下一代内容分发平台升级这一典型场景,借助全球1000+节点,100T带宽等强大资源,将推出基于边缘节点的计算服务平台KENC(Kingsoft Edge Node Computing),KENC是运行在金山云CDN边缘节点上的一套容器云平台,它支持在边缘运行自定义的容器镜像,依托CDN网络主推容器云平台,面向大客户提供自控节点容器云,并向中小客户提供自动调度容器云,通过就近计算原则,将算力高效分发到全区域覆盖,从而提供高性能、低延时的边缘计算服务,将云端的超强处理能力和本地设备的流畅操作感受相结合,提高了用户的使用体验,并助力客户探索更多可行的商业模式。同时,金山云正在打造包括边缘数据中心、家庭IoT以及连接边和端的1KM边缘计算在内的一体化解决方案,加速服务智能时代。