张霖峰:AV1和VVC的格局将在2023年后明朗

张霖峰:AV1和VVC的格局将在2023年后明朗_第1张图片


本文是MSU评测解读的系列文章之一。不过Ucodec CEO张霖峰还讲述了Video Codec的机会,VVC与AV1的竞争格局,苹果公司在Video Codec格局中扮演的重要角色等等。


文 / 张霖峰

策划 / LiveVideoStack


LiveVideoStack:张霖峰你好,向LiveVideoStack的读者介绍下自己,以及您(或您的团队)目前负责工作和感兴趣的技术方向。


张霖峰:各位音视频技术领域的朋友好,我本科毕业于清华大学电子系,于爱荷华州立大学取得博士学位,曾先后作为视频算法工程师供职于Vidyo及TangoMe,并作为合同工参与了VP9及AV1的部分优化工作。2015年创立Ucodec Inc并担任CEO,致力于高效率的视频压缩标准实现及优化。


LiveVideoStack:为什么选择视频Codec这个方向创业?包括先AOM联盟提出了免专利费的AV1,销售渠道,客户按需付费的习惯等等,综合起来看您如何评价专业(或私有)Codec的未来?


张霖峰:我特别喜欢做音视频方面的优化工作,积累了较多的经验,体会到了很多乐趣,尤其是当又在一个不起眼的地方省掉了几个CPU时钟周期,或者把PSNR提高了0.1个db的时候。我之前做过语音压缩方面的创业尝试,但因为近二十年语音压缩算法方面没有太大技术进步,所以这个领域很难给创业公司带来足够的回报。而国际上视频编解码方面仍旧保持着每8到10年更新一代、节省50%带宽的类比于芯片摩尔定律的发展速度,目前看来这个发展速度还可以保证一二十年,这就为视频方面的技术创业者带来机会。


如果单纯做一个视频编解码标准的优化实现,这样的公司的确没有太大的想象空间。做的还不错的话,依靠软件授权收费可以养一支不大的团队,最终大概会在几百万至几千万美元之间被大公司整体收购掉,或者是在10多年生命周期中收取到大致数目的用户付费。详见过去10多年间出售掉的UB Video、MainConcept、Vanguard Video和eBrisk Video等视频标准算法公司,虽然其中部分公司未披露收购价格,但大致在1千万至5千万美元之间。DivX、On2等公司因为有自己的视频标准,都曾经成功上市,即使最后发展一般并最终在1亿美元量级被收购。


题外话,谷歌对On2的1.25亿美元并购是一笔大赚的交易,之后依靠On2的技术团队研发了一系列的VP8、VP9、AV1标准,建立了完整的视频标准生态,节省了自身大量的专利费,并惠及其它视频应用公司,成立并成为AOM联盟的带头大哥,堪称业界大赢家。国内的相似视频算法公司、团队也有被收购的,但我了解不多,猜测收购价格应该也在千万美元量级。这些收购都既包含了技术价值,也包含了团队价值。因此,纯视频算法技术公司“钱途”虽然有限,绝无可能成长为独角兽,但如果这种技术上的追求同时是一个团队的热爱所在,那么也是值得去付出心血、全身心投入的,这样即便是公司没有成功,每个成员自身的价值也能得到极大的提高,成长为技术牛人。有些基于视频服务的公司可以发展的较大,例如被亚马逊5亿美元收购的Elemental,以及目前活跃的新公司BitMovin、Beamr等,这些公司都有自己的视频转码等云服务,视频算法仅仅是其中的一个组成模块。每次技术更新都会伴随着出现新的公司、新的机会。立足于最新视频技术,相信国内也会有新的类似的视频云公司发展并壮大起来,而非成为BAT等头部公司的附庸。


LiveVideoStack:业界已经有很多HEVC的实现,UCodec有何优势?看上去似乎是重复造轮子,真实的情况是怎样的?


张霖峰:这是一个非常好的问题。重复造轮子的确是一种资源浪费,尤其是当重复造出性能更差的方形轮子的时候。但是世界上的确不仅仅存在一种轮子,可以做到老少皆宜、大小通吃。比如,在H.264时期,x264是一个特别圆且便宜的轮子,目前仍旧被广泛使用,但不妨碍性能持平的MainConcept公司以2千2百万美元的价格被收购。


在HEVC时期,情况起了变化,x264派生出的x265就不像前辈那么圆了,今年MSU的HEVC测试结果表明华为、腾讯、金山、英特尔都在性能上有较大胜出,x265显的比较“方”。那么问题来了,如果你作为一个中小视频应用厂商,没有技术能力和资源制造一个比x265更圆的轮子,你该怎么办?向华为、腾讯或金山购买源代码或者SDK?这个貌似比较困难,因为这几个头部公司自身都提供规模庞大的视频云服务业务,高性能的HEVC视频算法是其招揽云服务客户的核心卖点,比较难向竞争对手或者第三方授权源代码或者SDK,你要买它们的轮子就必须使用它们的车子,给你提供什么样的轮子用你就用什么,较难按照自己的意愿去改造。而英特尔的解决方案又紧密绑定在其一代代不停迭代的CPU上面,硬件兼容性及移动平台是较大问题。对视频应用公司来说,被迫使用比较“方”的轮子去和别人在同一视频赛道赛车,是件比较悲伤的事情。Ucodec目前唯一的产品就是UC265,一款HEVC软件编解码方案。目前在主要应用场景上,UC265的性能比开源的x265还要“方”,但我们非常自信假以时日我们有能力把它打磨得非常圆。向中小视频应用厂商以合适的价格提供高性能的视频算法是我们公司的唯一宗旨。我们希望在半年至一年之后,UC265可以比x265节省15%-25%带宽及50%CPU复杂度,成为从PC到移动端的完整的HEVC软件编解码方案。之后我们会着手进行AV1或VVC的开发,争取走在标准的前面。


LiveVideoStack:说说UCodec在MSU 2018视频编码大赛中的表现吧,看上去成绩并不突出,您有什么要吐槽或评论吗?


张霖峰:Ucodec的UC265编码器第一次参加MSU视频编码大赛的成绩何止是不突出,简直是令人失望的低。我们对于公开、公平的测试没有任何吐槽,拿不到好成绩不是测试本身的问题,而是自身对测试的准备和适应问题。


在客观上找原因的话,是UC265的码率控制算法对MSU测试中的部分序列完全失效,以及缺乏场景切换检测模块,导致对一些极端序列的编码性能比x264还要差许多。我们之前的产品开发还是太学究气,不够接地气,离工业界较远。我们仅仅在JCTVC组织用来开发制定HEVC标准的20几个理想场景的序列上进行过性能对比测试,发现UC265在固定QP(CQP)模式下性能非常出色,超过x265和友商产品许多,在固定速率(CBR)上UC265的性能优势有所降低,但也还是合格的、领先的。在MSU测试结果公布后,我们对于结果之差的确非常惊讶,立即下载了28个比赛用测试序列中在网络上所有能找到的24个序列进行复盘,发现在CQP模式下UC265性能仍然卓越,超过同等测试条件下的x265近15%,而且速度是其2.3倍。但是一旦加上码率控制,UC265性能就直线下降,出现反转。MSU测试结果差不怕,怕就怕在不知道差在哪里而无从改进。我们很高兴通过此次MSU大赛失败的测试使得我们能够明确UC265当前版本的具体不足在哪里,在接下去的半年内我们会重构码率控制算法,争取在慢速档上可以比x265性能上胜出15%-20%,并继续优化我们的中速和快速档。在做完这部分改进工作后,我们会把UC265的SDK测试版公布到公司网站上,到时候欢迎大家下载评测。


LiveVideoStack:从参赛者的角度看,有哪些参赛经验可供分享?


张霖峰:首先,要充分准备,最好先用过去一两年的MSU测试序列内部测试一下,如果有显著的问题暴露出来,请尽快修复后再参赛。不要犯和我们一样的低级错误。


其次,早参赛比晚参赛要好,即使还没有完全开发完毕,也可以选择只参加其中一两种速率的测试,尽早知道自己的优势和不足,之后加以发扬或弥补,以便在第二年的比赛中取得好成绩。


最后,要重视使用MSU比赛公开报告中的评判标准(SSIM而非PSNR)进行编码器率失真优化,以免仅在PSNR上表现优秀而在SSIM准绳下名落孙山。


总之是不要闭门造车,要私下里多方位测试、练习,争取迅速找到问题并迭代提高,准备充分再参赛。


LiveVideoStack:UCodec是否实现了硬件(如FPGA、ASIC)编码/转码加速?


张霖峰:没有,目前也没有计划做。我们还是把研发力量集中在我们有技术经验的平台上面,即x86和ARM这种通用CPU上面,实现最大的设备兼容性、覆盖性。


LiveVideoStack:谈一下AV1/VVC谁会统治未来的视频世界?


张霖峰:这真的是非常难预测的问题,在目前的时间节点上,或在VVC标准完成前宣告任何一方标准的胜利或失败都是不负责任的,因为世事难料,这里面有许多因素会产生蝴蝶效应并影响最终局势。我只想简单分享一下我自己的思考。


对视频应用公司来说,选择哪个标准主要取决于成本(主要是专利费)、生态及编码性能。目前看来AV1在专利成本上面完胜,在生态上面前途光明,在性能方面预期比VVC大概会有20-30%的劣势。而且目前AV1的编码速度非常慢,今年3、4月份其完成标准工作时速度比VP9慢数千倍,而VVC当前版本仅仅比HEVC慢6.5倍。AV1还在飞速地优化加速中,相信会很快得到极大改进,希望其最终编码性能不会因为加速方面的优化工作而下降太多。


在广电领域,MPEG系列包括VVC标准将一直完胜,没有AV1的空间,毕竟单一设备价值高、单一用户净值高,目前是H.264/HEVC占据垄断地位,仅仅比HEVC节省约10%-20%带宽的AV1不会有机会杀入,另外这本来也不是AOM联盟开发AV1过程中考虑过的市场。


在其它群众喜闻乐见的视频领域的生态方面,4年后的苹果作为AOM联盟的成员之一将可能拥有极不公平的最终决定权。如果它只支持某一方,那么基本上可以宣告另一方在移动平台的突然死亡或立即由巅峰转向衰落。苹果大概率会仅依据自身公司的终极利益作出让部分公司瞠目结舌的选择,其它公司只能默默地吐血承受并作出相应调整。如果苹果和稀泥两个都支持(概率较低),那么两方又会陷入混战,和平共处。为什么是4年后?苹果手机全面支持HEVC是在2017年中,也即HEVC标准通过的4年半之后。VVC将在2020年底完成标准指定,而新的标准总是比旧的标准更难开发,更依赖于硬件性能的提升,苹果的特点是不做到最优坚决不发布,我猜测苹果会在2023年前后完成某标准的软硬件开发并投入市场。目前我了解到仅有谷歌及英特尔两家公司在大量投入AV1的软硬件研发,其它AOM成员打酱油、搭顺风车的居多。部分成员利益所致,随时可能跳车,至少会脚踩两只船。对许多公司来说,目前AV1最大的作用是向MPEG一方专利池、专利持有公司对专利费讨价还价的利器以及作为视频编码标准的安全技术备份。技术安全及完备并且构筑一定的技术护城河是这些公司所期望的。另外,MPEG组织及成员是否会吸取HEVC的专利费过高而较难推广的教训,而在VVC标准推广上面整顿乱收费现象?这也是一个未知的X因素。


对于下游应用厂商,选择哪个标准的确是case by case。比如爱奇艺在2017年的带宽支出成本为21.9亿元。对于这样体量的公司,能节省10%的带宽就是不得了的真金白银,每年付些专利费也可以赚到。对大公司来说,专利费不是障碍,AV1、VVC都会出现在它们的产品里面,以实现最大的用户覆盖以及最优的产品性能。对小公司来说,专利费也不是障碍,首先每年前10万单位的HEVC使用,至少MPEG LA专利池是不收费的,然后你体量不够大的话,专利持有者也懒得搭理你,告赢了还不够支付昂贵的律师费用。比较痛苦的是中等规模的或者上升期的公司,需要在专利费、生态和性能上面做全方面的利益权衡,两个标准都投入成本较大,而一旦押错宝又会带来较大的时间、市场损失,只能遥祝好运了。这里也体现出像Ucodec这样独立的、专业的视频编码技术公司存在的意义,使你用较低的成本拥有优秀的视频算法及到位的技术支持,更重要的是在标准纷争中低成本拥有技术选择权,在尘埃落定前保持冷静及技术、生态安全,尽量立于不败之地。



张霖峰:AV1和VVC的格局将在2023年后明朗_第2张图片

你可能感兴趣的:(张霖峰:AV1和VVC的格局将在2023年后明朗)