Zoe Liu:传统算法与深度学习各有所长

Zoe Liu:传统算法与深度学习各有所长_第1张图片

第一次MSU视频编码大赛就取得了“主观评分”第一,微帧团队到底做了哪些创新的尝试?深度学习真的是编解码的未来吗?LiveVideoStack通过邮件采访了微帧联合创始人Zoe Liu,向我们揭开参加MSU视频编码大赛背后的故事。

文 / ZoeLiu

策划 / LiveVideoStack

LiveVideoStack:Zoe你好,这是第二次和你通过邮件采访的方式对话,和上次对话不一样,你的身份已经发生了变化。能否借此向LiveVideoStack的读者介绍下自己?

Zoe:嗯,上一次我还是在谷歌做软件工程师,现在已经是微帧团队的联合创始人了。我是去年2018年7月从谷歌离职,跟我的合伙人朱政一起创建了微帧科技(Visionular)。时间逝去还是蛮快的,我从谷歌离职时,正好是开放媒体联盟(AOM)新一代开源视频编码标准AV1刚刚结束并推出的时候。我们微帧,现在在杭州和硅谷同时设置有研发团队,并在北京设有专注于产品、运营和市场的团队。我们主要致力于视频AI+编码和处理技术的打造,提供面向企业的相关产品和服务,力图视频带宽需求更小、画质更清晰的极致解决方案。我们在做AV1编码内核优化的同时,也对H.264等主流编码标准,推出了智能编码和处理引擎,结合AI技术在视频处理和编码的多个环节,推出了不同形态的产品,包括私有云部署解决方案,以及公用云SaaS方案的尝试。

在微帧之前,我曾就职于谷歌5年,是AOM/AV1的主要贡献者之一。从学校到现在,对图像/视频编码标准及相应编解码器优化技术,有相对比较长时间的研发经历。我曾参与过苹果公司的FaceTime、TangoMe跨移动平台VideoCallAPP、以及GoogleGlass的VideoCall研发和最终的delivery。之前还曾在一些实验室工作过,包括BellLabs,NokiaResearchCenter,SunLabs,以及HPLabs。

我跟LiveVideoStack音视频社区算是很有缘份吧。2017年10月是LiveVideoStack推出的第一次技术大会,当时我还是代表谷歌来做AV1相关的Keynote,结果机缘巧合碰到了我的合伙人,也看到了国内音视频领域的迅猛发展,此后一步步,改变了我的职业道路,开始加入了创业者的行列。之后的每一次LiveVideoStack大会,我都没有缺席过。LiveVideoStack目前也成长为国内公认的音视频领域最有影响力的技术社区了。我们很期待跟LiveVideoStack一起的成长。在这里,也很期待与业界前辈和朋友们更多的交流,一起推进技术的演进和发展。

LiveVideoStack:Visionular的AV1Codec在2019年MSU视频编码大赛“主观评分”中排名第一,也是此次参赛的唯一的AV1代表。能聊聊这背后的故事吗?

Zoe:前面有提到,我们团队的核心,是对视频编码以及将AI应用于视频编码算法和技术上的打造。我自己从谷歌AV1团队出来,经历了AV1从无到有的整个周期,我们微帧也是中国市场上与爱奇艺同时加入AOM最早的两家会员。

我们去年团队成立伊始,就有跟谷歌合作,对于AV1目前最具代表性的开源codebase、名为libaom的优化,有比较多的贡献。libaom里面有200条以上的代码贡献,均来自于我们的团队成员,既包括对AV1标准本身的贡献,也有对libaom编码器的早期加速。与此同时,我们参与了AOM比较多的生态建设。AOM前主席MattFrost先生在去年、今年两次莅临杭州,都有跟我们的团队当面交流。

AV1不仅是开源的编码标准、不涉及版权,编码工具打造上也具有一定的先进性,MSU早些时候的评估数据,即呈现了AV1相对于H.265、VP9等主流编码标准的标准优势。另外,AOM成员,包括有海外主要的视频内容制作商,诸如YouTube、Facebook等UGC平台,Netflix、AmazonPrimeVideo等PGC平台等;咱们国内的互联网巨头企业阿里巴巴、腾讯等也相继成为AOM的重要成员。

尽管AV1的生态,在标准制定不久后确实还需要一定时间的积累;其实,现在Chrome等主流浏览器都早已支持AV1的解码播放,AndroidQ也会全面支持AV1,移动端、尤其Android端的解码芯片在全力打造,再加上苹果也是AOM成员之一。我们相对对AV1的优化研发,起始的比较早,外加我们的团队在H.265等编码器优化上的积累,在AV1上的努力会相对超前一些。我们现在不仅针对点播场景,还包括直播、RTC场景,都在努力的将AV1实现产品落地。我们在技术打磨的同时,非常关注客户的实际需求。

我们在今年阿姆斯特丹全球最大的IBC媒体技术展会上,被GoogleCloud邀请,特别介绍了我们的AV1技术和相应的产品。在9月的杭州阿里云栖大会上,我们也参与了5G+视频为主题的圆桌论坛,与其他业界的学者和技术同仁探讨各类视频编码标准的发展前景。在10月旧金山举行的AOM全球第一次Summit上,我们也被AOM邀请,介绍了我们AV1的技术概况以及性能更新。这次AOMSummit的全部演讲PPT已在AOM网站上分享(https://aomedia.org/aomedia-research-symposium-2019/),其中对AV1编解码优化发展现状,下一代标准AV2规划,以及AI+编码技术,均有一定的探讨。

我们参与MSU评估,最主要的初衷,是希望可以在MSU严格、客观的视频编码评估流程中,检验一下我们自己编码器的性能。MSU测试有比较严格的编码速度要求。即使是慢速档,包括主观评估档,他们均要求对于他们内部给定的1080p视频,在一定的机型上面,达到编码速度每秒一帧的指标。MSU这次的报名截止日期是今年3月底,当时我们还在AV1全力优化的相对早期阶段,AV1编码工具相对复杂,提速的同时保持编码性能,确实是充满了挑战的。我们能代表AV1标准参比,有我们自身的努力,同时也很感谢AV1的开源社区。AV1开源代码,包括liabom、SVT-AV1的打造,提供给了大家许多的借鉴。我们是站在巨人的肩膀上向上走的。

LiveVideoStack:我注意到Visionular只出现在“主观评分”报告中,没有出现在“客观评分”报告中,这是什么原因?

Zoe:我们的编码器优化,包括我们集中研发主力在AV1上的优化,以及我们对264编码技术和产品的进一步打磨,主要是针对客户需求推进的。我们是一家2B企业,我们的研发和技术是客户需求反推的。我们的客户最关注的,是视频的主观质量,因此我们的产品以及背后的研发算法,主要也是针对主观质量优化展开的。这应该是我们在MSU主观评估类别上表现突出的一个原因。

今年的MSU“HEVC/AV1VideoCodecsComparison2019”评估报告,分为免费版和企业版。企业版提供详尽完整的报告,可以从如下链接中付费获取。

http://www.compression.ru/video/codec_comparison/hevc_2019/

MSU近两年免费公开版,只给出基于客观质量评估指标SSIM的评估结果。如果可以看到MSU完整的客观数据报告,就会看到MSU按照3种客观质量评估指标,包括SSIM/PSNR/VMAF的详尽评估结果,包括客观质量评估类别中,我们在100个不同1080p视频上的具体编码性能数据,以及相应指标下的排名。

我们在客观质量评估中的表现,虽然没有主观质量评估类别中的结果那样显赫,却同样是有相当的竞争力的,尤其是在YComponent的PSNR数据上的表现,可圈可点。PSNR的评测数据需要在MSU企业版中才可以看到。

前面有讲到,我们参比,主要是想检验一下我们自己的编码器,并没有为比赛而比赛的想法。MSU评估分为多个类别,我们今年主要参加两个类别:一是主观质量类别评估,另一个名为Rippingusecase类别,主要是指慢速档。这两个类别,均要求视频编码速度必须达到1fps,即一秒内要完成对指定1080p视频一帧图像的编码。对于AV1来讲,这个挑战还是蛮大的,因为AV1相比VP9,增添了70+新的编码工具,编码决策复杂度大幅提升,需要达到这个编码速度、同时保持标准优势,让AV1足够体现它的标准优势,并不是很轻而易举的事情。

我们客观指标下的数据,在一些视频序列中确实出现了badcase,一些RD曲线表现异常;在MSU主观类别测试中,应该是我们相对幸运,这些badcase并没有出现那么频繁。

MSU每年的测试评估,相对非常全面而细致,评测周期也比较长。现在看到的MSU评测结果,是我们今年3月底提交的WZAuroraAV1编码器的性能结果。我们一直在持续优化,包括编码速度、编码性能,以及编码器的多线程、内存损耗等多项指标,我们在全方位的提升。与此同时,我们在WZAurora上增添了不同的速度档,针对点播、直播、RTC实时等不同应用场景,我们均在做努力细致的打造。期待未来我们会有更好的成绩,尤其期待我们有更优质的产品,可以提供给我们的企业客户。

LiveVideoStack:你认为,AI压缩技术有可能追赶甚至超越传统的编码技术吗?

Zoe:AI多媒体压缩技术,目前在图片领域,应该是早于视频开始尝试的。尤其是基于各种深度神经网络模型的图片压缩尝试,在颠覆传统的图片编码技术,取代小波变换、DCT变换,并取得了与传统图片编码框架相近或相当的编码性能。目前完全基于机器学习的图片编码技术,还没有进入编码标准,也没有非常成熟的产品落地,主要受限于编解码的复杂度,但确实表现出一定的潜力。

机器学习应用于视频编码,业界一直有许多的尝试,包括AV1开源编解码codebase中,会有不少实现范例。大家可以checkAV1的开源codebaselibaom中每次贡献的CL(ChangeList),在comment中查询NeuralNetworks等关键字,应该会看到不少机器学习的实际应用,包括码控的优化,RD指标的快速估算,基于NN的快速编码算法等。不过视频相比图片,增加了一个时间维度,相应编码算法的overall复杂度是数量级上的区别。在最新视频编码标准VVC(akaH266)、AVS3、AV1等编码工具提案以及相应参考模型的开源实现中,我们了解到的基于机器学习的AI算法工具,主要是在传统混合编码框架下(运动估计+2D变换),对于编码各个模块的进一步优化,并没有颠覆视频编码的基本架构。

AI的出现,5G的大规模推广,应该会给视频带来许多新的展示方式,包括Stadia云游戏平台的推出,未来VR与全景视频的深度推广,视频编码后续应该会与AI技术有更多的耦合,尤其是编码与视频分析、处理的综合自适应运用。不同视频内容的细分类,有可能会出现更为专注的编码工具,比如针对屏幕内容、游戏内容、动漫内容等的特定编码工具,以及基于ROI(感兴趣区域)的编码算法等,可以相对自然的引入视频内容的分类以及特定物体的检测,这些都给AI与编码的结合提供了比较广阔的空间。

我们是以技术打造为核心的企业,很多时候,我们会比较看重传统视频编码、处理算法,与机器学习算法的结合。我这里给大家举一个实例:我的一位清华同系创业的师兄,几年来一直在专注打磨眼球跟踪、FOV检测的穿戴式软硬件一体的产品,他们目前已经可以做到识别出人在读书时眼睛在文字上扫描的pattern(包括移动速度、移动平稳度、变换方向等),也可以在博物馆等大空间场景下检测出眼睛所关注的物体。他们目前的核心算法,并没有用到当下比较hot的深度学习技术,而是基于传统的计算机视觉和模式识别技术实现的。我用这个实例,是想突出下传统算法的价值和潜力。大家公认的机器学习应用比较成功的几大场景,包括计算机视觉、自然语言处理(NLP)、大数据分析等,而在计算机视觉这一机器学习如此被追捧的领域,传统算法同样拥有许多突出的优势。视频编码,其实是有更多将深度学习和传统算法可以融合的领域,值得我们去探寻的。

LiveVideoStack:最近我体验了TutorABC的AV1客户端(浏览器),上直播课的延迟完全可以接受,但只能在PC端应用,无法部署在移动设备上。关于AV1的移动端硬件编解码支持有最新的消息可以分享吗?

Zoe:很开心听到你们也体验了AV1在TutorABC平台上的实用展示。我们与TutorABC团队合作,一起将AV1RTC档推到了他们的在线平台,应该是在线教育场景中AV1的第一款部署上线产品了。在线教育大课场景一般是以教师端视频为主,并且PC是老师主要采用的设备,可以充分支持AV1编码;解码端我们则是采用开源AV1解码器dAV1d,在Android和iOS移动设备上支持是没有问题的。

AOM成立之初,AV1最早的版本是由VP9衍生而来,一定意义上讲,VP9可以看成AV1的一个子集。将AV1中计算复杂工具悉数关掉,即可推出AV1编码快速甚至实时档,但与VP9的编码性能可能只会差之毫厘。我们将AV1推到RTC场景,是希望保持AV1的标准优势,同时缩短首屏时间,减少编码所需占用的CPU以及memory资源。我们力求相同质量条件下,可大幅降低码率以减少视频卡顿,或从另外的角度,相同带宽、码率条件下,可提供更加高清的画质,从而最终服务于用户体验的提升。

视频目前在移动端上的实用,确实占比是主要的。AV1开源软件解码器dAV1d,已经在移动端表现了相当大的潜力。我们当然也很期待,可以把AV1软件编码方案尽快推到移动端,但还需要一段时间的打磨的。

硬件编解码器的支持,尤其是硬件解码器在手机终端的支持,是AV1生态推广中非常重要的一环。AOM中的主要硬件厂商,都有在研制AV1编解码相关芯片。其中Realtek、Broadcom等,是比较早推出AV1硬件解码IP原型的厂商。高通(Qualcomm)、联发科(Mediatek)等非AOM成员厂商,应市场趋势,也同样在打造相关的芯片方案。我们从手机厂商了解到的讯息,解码芯片2020上半年预计会大规模推出,尤其是针对Android平台的。iOS上的支持,以苹果的风格,永远都会是在其产品已经完全ready时才会公诸于世,不过苹果早已是AOM成员,一定程度上体现了他们对于AOM/AV1这一开源编码标准的支持立场。在已经正式开始讨论的AV2编码标准前期策划中,苹果也是AOM中非常活跃的一员。

另外,也有业界人士提到,电视终端,有可能先于移动端,推出AV1的硬件显示设备。

编码芯片,包括面对IPC、移动手机终端的芯片产品,应该会接踵而至的。业界早有注意到,包括谷歌、华为海思等团队,很早就开始跟进AV1的标准制定,跃跃欲试于AV1编码芯片的打造了。我们也直接了解到,其他厂商的AV1编码IP和产品,也已经跟市场上相应的终端客户以及云厂商,在实际售卖交易阶段。

你可能感兴趣的:(Zoe Liu:传统算法与深度学习各有所长)