问题背景:
周末去网易参加了一个小型的音视频活动,活动上来自Bilibili、网易云信、微帧科技的大佬分别就视频质量主观评价、5G低延时通信、AV1等话题进行了分享。本篇文章记录下我的收获和一些关键点,做个搬运匠,放一些当时的PPT和我的一些理解,希望对你有所帮助。
了解更多可以关注本人公众号:智媒黑板报
Bilibili汤然:视频质量主观对比分析实践
简要介绍:
汤同学目前主要在B站负责转码系统的开发和维护,主要讲解了下面几点内容:
1. 上来先从两个方面介绍了为啥要转码?
首先要适配多用户和多播放器,因为PC、移动、Web这些播放器需要的音视频编码格式、封装格式、传输协议都是不同的,所以将单一的片源转码进行转码以适配这种一对多的情况。
其次降成本,不同的视频质量背后都是流量和存储的成本,所以转码主要为了在兼顾用户体验的情况下同时要考虑降成本。
2. 转码出来的视频质量怎么评估?
既然转码是实实在在的需求,那么怎么评估转出来视频的质量?汤同学分别给出了PSNR、SSIM、VMAF三种业界主流的主观评价方法,当然没有讲解这三种方法背后的原理,只是过了一下,后文我附了一些链接,大家学习参考下,他们选择的是VMAF方法。
3. 如何设计转码主动评价软件?
汤同学最后给了下自己部门设计视频质量主观评价软件的设计方法:基本是把源片A视频和转出来的视频B,同时塞进基于FFmpeg+SDL2的播放器,然后将这两个视频渲染到同一个窗口上,左边是A视频的渲染效果,右边是视频B渲染的效果。这样通过对比就可以从主观方面基本得到转码后视频的质量高低:
同时给出了设计这样一个视频分析软件还需要有的功能,其实这就是在普通播放器基础上加上一些花式播放和给出一些关于视频质量计算的数据信息:
遗留了两个思考问题:
A. 计算视频质量分数和主观感受不一致时如何办?如何权衡和取舍?
B. 对于一些老片翻新或者超分特殊场景,片源的视频质量本身就不高的情况下我们又应该选择什么样的评价视频质量手段来解决这个问题,因为上述的评价算法都有一个前提假设,源片的质量都是比较高的情况下,也欢迎读者对这两个问题的分享。
感受总结:
自己虽然对这块没有亲自实践过,以前只是有所耳闻,但是还是感谢汤同学的分享,大概了解这块内容如何开展以及会涉及到哪些问题等。
网易云信吴桐:超高清4K视频低延时直播和RTC融合架构设计
简要介绍:
吴同学讲的比较多,我觉得也是一下午讲的最好的,介于一些时间关系很多都没来得及讲。吴同学讲解的内容主要是:
1. 5G和未来网络格局
这块一般都是大佬高屋建瓴的部分,哈哈,其实我觉得5G会给音视频行业带来比较重要的工具是:边缘计算和定制路由,也就是5G允许云平台服务厂商可以自己定制路由,同时允许将一些媒体服务下沉到用户侧,显然这样对低延时和拥塞控制这块都是有好处的。其次吴同学认为应该快速普及IPV6,国内这块速度明显还是偏慢了,提示我们要做好服务器和客户端对IPv6的支持工作:
2. 超高清编码
这块比较讲的简单,主要是给了一些选择编码器的建议:
其实我觉得H.264在未来依然还是市场份额最大的,至少未来五六年我估计其它编码器并不能把H.264送进坟墓,其中Zoeliu老师给出答案说未来十年H.264可能还会活跃在音视频各个领域,就拿视频监控领域来说,H.265出来几年了,大部分摄像机的首选编码格式还是H.264.因为H.265专利费拖慢了市场占有率,VVC即H.266还没定稿,大概明年才会出标准,从标准到商用编码器出来还尚需时间,AV1目前虽然有谷歌加持同时也带着一帮大佬在颠覆MPEG,但是实时性能跟不上目前也是事实。
3. 低延时直播和RTC架构
吴同学这块讲的最多,先分析了导致音视频延时的原因,今天他主要讲解传输维度,分别从传输协议、拥塞控制算法、分发网络拓扑、第一公里角度等讲解了低延时这块网易云信的实践:
传输协议先比较了RTMP和SRT协议的优缺点,再提出了自研基于UDP协议。从各种RTC大会来看,大家基本都认可这么一个观点:要做好低延时实时视频,还是要果断抛弃TCP,无论自研还是选用开源项目,都要基本UDP,至少我也认为这个方向是正确的。
自研传输协议降低延时:
对比RTMP Over TCP Or Over Quic优缺点:
SRT协议优缺点:
自研传输协议:
对于传输拥塞控制算法,基本还是对比了GCC算法和BBR算法的优缺点,其次讲解了BBR算法的原理,网易云信对这块的实践基本是BBR算法和GCC算法交叉使用。根据不用的业务场景选用不同的拥塞控制算法,因为拥塞控制算法想达到一个比较好的效果都有它的场景和前提,最后介绍了目前基于AI对拥塞控制这块的处理新算法PCC算法,虽然云信还没实践,但是觉得这个算法是解决这类问题的新思路,后面保持关注会跟进。
GCC算法和BBR算法降低延时:
下面这张图其实我在前文已经发过了,这种图比较好需要仔细琢磨,带宽延迟积的最大带宽和最小延迟这两个值不能同时得到,同时分析了BBR算法和原理和存在问题,也给出了网易云信对这块的优化处理,如果对BBR算法基础不太了解,参考前文:
给出了一个场景下,对GCC算法和BBR算法的效果对比,目测来看BBR对带宽的预估还是比较好的。
优化服务器分发网络降低延时:
先给出目前CDN分发网络树形架构的弊端,提出了网易云信的服务器低延时拓扑架构:
第一公里的低延时处理方案:
这块大家的基本处理思路我觉得都差不多,基本网易云信说的这些其它云平台服务厂商都注意到了,基本大家都是对这些点进行优化,觉得变化比较大的还是传输协议和分发网络这块,各个云服务厂商实现差别比较大。
4. 未来期望
老师这部分还讲解了未来要实现低延时,还有哪些事情可以继续优化?其中一个思路是客户端订阅自己目前的码率需求,服务器端进行探测下行带宽然后智能决策下行的码率,做到用户无感知无缝切换,其次关注AI算法对压缩和超分重建、拥塞这块的处理,
感受总结:
最后这位吴同学觉得未来音视频和AI应该会联系的更加紧密,不管是拥塞控制这块还是编解码这块,应该都能看到AI技术在这方面的落地和应用。其次AR技术可能在5G到来后,实际落地应用应该会取得突破,这门技术在4G受带宽和低延时限制,导致体验很不好,5G加持应该那种眩晕感和体验方式会带来新变化,同时边缘计算可能也比较有想象力。最后IoT时代可能会进一步推广音视频的应用范围和广度。
微帧科技Zoeliu:实时视频通信中的Av1优化
概要介绍:
其实我们项目现在也开始预研Av1的编解码技术,所以去听了哈,这个公司还是我们园区的,经常还能碰到Zoeliu。虽然没有过多干货,但是觉得同学跟老师探讨的内容更有趣点吧,给大家分享一部分,后面的PPT贴几张随便看吧。
1. AV1无论从压缩率还是视频质量上目前的确优秀于H.265和VP9,但是速度还是有点慢,想达到实时编解码还是有困难,目前30fps尚可使用,60fps的编码速度还是跟不上H.265和VP9,所以AV1想落地先建议点播领域用起来,的确是可以降低成本和带宽的;
2. AV1能达到比较好的压缩率和视频质量主要是里面大概有70多个编解码算子叠加的效果,所以要想速度快目前就得有点取舍;
3. AV1存不存在专利池问题,听老师大概的意思是比H.265好的多,因为要成为AV1的成员首先得放弃当AV1的专利和自己专利冲突时的权益,所以说AV1还是可以大规模使用的。
4. 对于编解码算法的三大组织MPEG\AVS\AOM,老师也承认咱国内的AVS目前还是可以的,希望在不久的未来能有中国人自己的编解码算法,也希望能让该技术成长为5G 一样让国人感觉到自豪的技术。其实AVS这个编解码算法,在我兄弟公司已经进行了商业化,国内海思芯片也进行了支持,目前发展态势还是可以的,至少在广电领域还是非常有话语权的。同时国内视频监控行业的编解码算法首先定的就是AVS,只是这些安防厂商还没有正式落地,应该随着国家的强推,详细AVS生态会越来越好的。
5. 也谈了AV1和AI算法跟编解码的结合,基本结论就是AI算法现在还没有彻底颠覆掉传统编码算法,更多的一些核心步骤的优化,达不到端到端的优化。但是AI算法对于传统算法是一种很好的补充,在一些特殊步骤上,应用AI算法对编码速度、质量、成本都是很好的提升,应该会越来越紧密。
放一些PPT:
三大编解码算法组织目前进展:
AVOM会员:
核心算法:
对应的开源编码器:
对应的开源解码器:
总结:
时间匆匆,其实还听了一些其它演讲,感觉讲的比较简单和水大,这里就不跟大家一一分享了。今天自己也就是个搬运工角色,把听到的通过这篇文章传递下,老师同学们讲的都挺好,还需要在后面的实践中逐步落地,希望以后能多讲些我们在这方面的实践经验,最后再说一下自己的整体观感:
1. 2019年是5G元年,行业内对5G时代带来到底能出现什么超级应用和对音视频技术带来什么深刻变革谈论的最多,也能感受到各大音视频云服务厂商对这块比较焦虑。
2. 大家比较看好音视频未来的发展,无论是从行业报告还是实际实践,基本都能得出一个结论:互联网上的音视频流量在飞速增长,这种大趋势不会变化,4G算是对音视频能力的一次初步释放,彻底释放还需要在5G体现。
3. 音视频应用的方向可能在5G不仅仅局限在移动互联网,可能和一些IoT,边缘计算、AI等新技术的关系会越来越紧密,未来应该是交叉应用和发展,这门技术可能会随着新编解码技术、传输协议等变得快起来。
本篇文章参考网址和项目:
https://github.com/ty6815
https://blog.csdn.net/yue_huang/article/details/79503884
https://mp.weixin.qq.com/s/TMwzvITGKoqvyaVfcp7pCA
https://mp.weixin.qq.com/s/kiJ2TJU5VaDumGGs2SPPkg
今天就说这么多,祝您工作顺利!
如果有疑问,你可以在公众号后台发消息咨询我。
往期文章回顾:
在HTML5上开发音视频应用的五种思路
音视频封装:MP4结构概述和分析工具
音视频解封装:MP4核心Box详解及H264&AAC打包方案
音视频基础知识-时间戳的理解
BBR在实时音视频领域的应用
音视频封装格式:AAC音频基础和ADTS打包方案详解
从人类的第一次直播聊聊视频监控行业
音视频压缩:H264码流层次结构和NALU详解
音视频传输:RTP协议详解和H.264打包方案
音视频封装:FLV格式详解和打包H264、AAC方案(下)
音视频封装:FLV格式详解和打包H264、AAC方案(上)
音视频常见问题分析和解决:延时和抖动
个人转载内容至朋友圈和群聊天,无需特别申请版权许可。
引用转载该订阅号文章,注明文章来源即可。
记得右下角点“在看”,还可以关注该订阅号,防止遗漏推送哦