延时降低90% | 国内首份《超低延时直播(快直播)白皮书》技术解码

2月22日,腾讯云联合信通院正式对外发布《超低延时直播(快直播)白皮书》。作为首本超低延时直播报告,白皮书首次对外公布超低延时直播技术标准,为直播技术发展提供新思路,降低技术开发门槛。报告主要介绍了直播行业发展背景和技术演进路线,详细阐述了基于WebRTC的技术升级、传统CDN网络架构的融合改造,以解决大规模、超低延时直播的分发所面临的成本挑战。

延时降低90% | 国内首份《超低延时直播(快直播)白皮书》技术解码_第1张图片

作为超低延迟直播的主导和引领者,腾讯云快直播团队基于音视频直播技术的长期研发及行业应用经验,针对原标准直播模型所存在的缺陷问题,在 WebRTC 技术上进行大量能力优化,可将直播延时降低到500ms以内,同时兼顾延时、卡顿和首帧耗时,综合QoS远超标准直播,超越竞品。并率先提出minisdp方案,成为行业事实标准,此外,快直播首先支持了AV1,并实现超低延时直播的自适应码率,做到无缝切换码率,提高直播体验。

一、众多领域“直播+”转型,加速超低延时直播规模化落地

中国互联网络信息中心(CNNIC)2021年发布的第48次《中国互联网络发展状况统计报告》显示,截止2021年6月末,中国网络直播用户规模达到6.37亿人,进入全民直播时代。

直播应用正全面赋能电商、教育、社交、体育、游戏、旅游、文化传播等众多领域。中国网络视听节目服务协会发布的《2021年中国网络视听发展研究报告》显示,越来越多的网络文化企业、传统企业入局网络直播领域,为产品和服务拓展新的推广和销售渠道,通过“直播+”的形式实现转型升级,直播成为中国众多企业数字化转型升级的重要手段。

同时,以在线教育为代表的行业的兴起推动了实时音视频的快速发展,也暴露了实时音视频存在成本高、无法大规模应用等问题。此后疫情的突然爆发,加速各行各业数字化的进度,类似电商直播这种大规模低延时直播应用场景不断涌现。实时音视频产品的成本和技术问题被再次放大,整个行业都在积极探索有效的解决方案。

2021年初,以腾讯云为主的一些云厂商,通过对开放的WebRTC技术优化,同时融合边缘计算等全新的资源升级对传统的CDN技术架构进行优化改造,最终演化出来的超低延时直播(快直播)技术,填补了传统直播CDN和实时音视频产品服务的不足,既能满足低延时体验需求,性价比也适中。

二、超低延时直播(快直播)新模型,WebRTC技术优势突出

1、标准直播模型,底层技术局限性凸显延迟缺陷

传统标准直播在降低延时上做过很多尝试,但随着延时的降低,卡顿率大幅上升,原因在于标准直播的传输-播放模型中,上行推流和下行播放均采用固定的缓存(buffer)、完全可靠的传输,其传输和播放控制完全割裂,没有对变化的网络进行适配;固定的缓存(buffer)一旦减小,弱网下的卡顿率就大幅上涨;其次可靠传输(基于TCP的RTMP、HTTP with FLV、HLS)协议层面无法区分视频帧的优先级,在网络抖动或变差时,无法满足延时优先的要求。

延时降低90% | 国内首份《超低延时直播(快直播)白皮书》技术解码_第2张图片

编辑切换为居中

标准直播播放模型

另外,标准直播采用单向完全可靠传输,缺少传输和播放控制的反馈联动,传输不理解流媒体特性,这些都限制了标准直播的QoS/QoE的优化,比如端云双边加速、Simucast/ABR(低延迟自适应码率)策略在标准直播上被限制,当前标准直播的QoS/QoE的优化已经到达了一个瓶颈。

超低延时直播(快直播)摒弃传统直播的传输播控模型,借鉴 WebRTC通信模型,将传输和播放控制实时反馈联动,形成反馈闭环,通过感知网络状态来调整播控缓存策略和传输策略,使传输和播控缓存根据实时网络进行最优匹配,使用户在变动的网络环境下获取到最优的体验。

延时降低90% | 国内首份《超低延时直播(快直播)白皮书》技术解码_第3张图片

编辑切换为居中

超低延迟直播播放模型

2、系统的QoS优化,大幅提升快直播体验

WebRTC的初衷是用于低延时P2P(Peer-to-Peer)通信,但在直播场景也面临挑战,具体体现为:

● 信令流程繁杂,难以满足直播首帧要求。标准WebRTC的信令需要经过SDP(Session Description Protocol)交换,ICE(Interactive Connectivity Establishment)交互,DTLS(Datagram Transport Layer Security)握手之后方能传输流媒体数据,导致其首帧耗时严重恶化。

● 原生WebRTC的音视频编码格式支持受限。标准WebRTC音频不支持AAC,视频不支持H.265和B帧,不支持私有数据的透传,不支持可选加密,这些都限制了在大规模直播场景的应用。

● 原生WebRTC重传策略不适合直播,其重传发包策略上基于P2P通话和会议,不适合一对多的直播场景。在通话场景,为保证低延时,重传较激进, 但在高码率、高画质的直播场景,激进的重传会带来大量的带宽浪费。

● 原生WebRTC码率调整策略不适应直播,其通过探测带宽,按照带宽容量来调整编码码率发包,而超大房间的直播,主播编码推流被多个下行用户复用,这个场景下,单个用户无法反馈给主播去调整推流编码,因此需要新的解决方案。

针对上述问题,超低延时快直播基于WebRTC在适配低延时直播方面进行了大量的优化升级。

1)信令改造

标准WebRTC的信令交互是一个繁复冗长的过程,不利于直播的快速开播,解决这个问题需要对信令大幅简化。

快直播提出的miniSDP二进制压缩方案(压缩比10%)是一个事实上的标准,它将SDP压缩到一个MTU之内,在一个UDP包内完成SDP交互。信令简化压缩后,再通过一定的冗余,使得在50%的丢包下也能保证首帧成功。在此基础上,进一步提出的0-RTT方案,降低70%的延时。miniSDP和0-RTT的结合,大幅减少信令耗时、提升信令交互成功,进而降低首帧耗时和提升开播成功率。

延时降低90% | 国内首份《超低延时直播(快直播)白皮书》技术解码_第4张图片

 企鹅群994289133领取白皮书完整版PDF

LinuxC++音视频开发视频免费】FFmpeg/WebRTC/RTMP/NDK/Android音视频流媒体高级开发

2)音视频改造

● 支持AAC

AAC作为传统直播领域最为常用的音频格式,但WebRTC不支持。快直播基于WebRTC根据RFC6416和ISO/IEC 14496-3,实现对上述AAC格式的完整支持,以避免WebRTC 中Opus音频格式的转码。与此同时,附加其上的Audio FEC(Forward Error Correction)能够根据网络配置不同的冗余度,使音频能抗50%以上的丢包。

● 支持 H.265

H.265比H.264有更高的压缩率,在直播领域已经普遍采用,标准WebRTC不支持 H.265,为避免H.265到H.264转码带来的成本和耗时。快直播以RFC7798为基础,实现了对H.265的支持,从而避免转码成本的增加和转码延时的引入。

● 支持B帧

B帧在直播流中广泛存在,其增强了画质,同时大幅减少了码率。标准WebRTC为了减少编解码引入的耗时,不支持B帧,但快直播在延时和画质、压缩率、成本之间取得了一个较好的平衡,通过客户端SDK配合CDN,实现B帧的支持。

3)传输改造

● 柔性分级传输

标准WebRTC弱网应对策略是通过反馈网络到推流端,使推流端调整码率来适应网络。直播场景,主播和观众是一对多模型,不能因为某些观众的网络问题去调整主播推流码率。快直播通过服务端和客户端的配合,WebRTC扩展帧属性和依赖关系,采样柔性分级丢帧的传输策略来渐进式降低码率,以适应弱网情况。

● 自适pacing(平滑发包)

快直播充分利用客户端缓存信息、流媒体信息自适应调节发包平滑长度,同时满足平滑去抖动和收帧延时要求。

● 自适应码率(Simulcast/ABR)

快直播一方面支持通过客户端使用扩展的RTCP作为切流信令,另一方面,服务端也具备依据网络情况来无缝切流的能力。服务端通过渐进式的超发来探测网络的承载能力,作为切流决策依据,达到快速、精准、无缝切流的目的。

● P2P分发网络

快直播利用WebRTC原生自带的Peer to Peer的能力,能够将看同一视频流的用户群就近地组织成网络,相互分享传输,每个客户端节点一边通过RTCP与CDN协商数据,同时与其他客户端节点约定内容共享,在保持低延时的前提下依然能够取得不错的效果。

4)其它改造

● 支持私有数据透传以适配业务

众多客户在使用标准直播时,需要通过Meta Data、SEI(Supplemental Enhancement Information)和自定义NALU(Network Abstraction Layer Unit)等方式传递业务信息;快直播通过RTP扩展,支持全链路的私有数据透传;使得标准直播到快直播的迁移过渡平滑无缝。

● 可选加密

标准WebRTC设计应用于音视频通信领域,为保证安全,加密为必选项,而直播部分场景,其内容本身公开,但对性能和终端消耗敏感,安全性可以适当降低,快直播可根据SDP协商选择开关加密。关闭加密可明显减少前后端开销,也进一步节省DTLS握手耗时,最终减少首帧耗时。

● 媒体处理优化源

针对低延迟场景,在保证画质的基础上,降低I帧大小。结合AI的能力,在编码前对视频源进行前置处理,使视频源更适配编码场景。

三、助力电商直播、跨域联动、教育培训等快速发展

快直播能够带给用户实时互动体验的核心关键技术还是低延时。基于WebRTC的低延迟技术,在含有“互动”的直播场景中已经突破到了400毫秒以内的延时边界。快直播能够还原真实互动场景,让电商直播、跨域联动、教育培训这类直播场景拥有更低延时更强互动的直播体验。

电商直播

场景需求:

对于电商直播来说,最为关键的一环是带货主播与观众之间的互动。早期传统的电商直播还是单向讲解产品的形式,较为枯燥单调,往往依赖文字聊天,观众的响应和反馈不及时,导致用户问题得不到有效解答,用户流失率很高,平台成交量较小,整体直播电商的规模也相对较小。

业务痛点:

为了满足公平性要求,这些互动形式对直播延时要求较高(1s左右),传统的直播技术和架构问题突出,众多云厂商都在探索低延迟直播技术,绝大部分方案都是基于传统的直播技术进行CDN配置或播控策略优化来尽可能优化延迟,总体效果不尽如人意。

接入效果:

近年来,随着部分云厂商低延时直播技术能力突破性发展,在低延时这个赛道实现了本质突破。以腾讯云为例,通过低延迟直播技术,不需要编排和时间规划,随时随地可以发起红包或福利活动,极大促进了观众交互和购买热情,大大提升了平台的交易量。以国内某头部电商平台举例,当前已大规模应用低延时直播技术,让主播更快地接收到观众的信息并实时反馈,提升消费者边看边买的体验,提升了用户活跃度和商品成交率。

延时降低90% | 国内首份《超低延时直播(快直播)白皮书》技术解码_第5张图片

跨域联动

场景需求:

公司跨域联动的企业直播活动都对直播场景有着更低延时的要求。比如某些庆典活动具备多个分会场,需要采集多个会场的画面推多路流到云端,或者大型演唱会多视角镜头如何实现多机位的无缝切换。

业务痛点:

早期的方案通常使用较为复杂的导播台方案,为了解决同步问题,往往还需要在流里面插入同步依赖信息,切换画面的复杂度较高和效果较差。极大限制了跨区联动直播的大面积推广和应用。

接入效果:

国内某企业直播服务商,以知识产品与用户服务为核心,利用快直播技术为其平台客户实现了多场跨地域多会场联动的公司年会、企业直播活动,消除了各地观众们之间的地域限制,达到异地实时联动的强观感现场效果

教育培训

场景需求:

在传统教育直播中,通常分为大班课或小班课,小班课通常使用实时音视频互动产品,进行小范围的音视频互动,大班课面向于几十人甚至上百万人同时在线的要求。

业务痛点:

在面向大房间高并发要求时,实时音视频产品无论是技术架构还是使用成本都无法满足用户的要求,比如在连麦和下麦切换时常会出现延时较高的情况,影响讲师与学生的互动。亦或是,较高的实时音视频流量成本导致很多在线教育平台放弃大班课的一些规划。

接入效果:

腾讯课堂、腾讯乐享和小鹅通作为线上教学模式的开创者,选择将快直播技术融入其直播课堂,用毫秒级的延时来保障老师和学生之间畅通无阻的沟通,真实还原线下课堂的互动体验再加上答题、投票、白板等互动功能,使线上课堂的教学质量和学员完课率都得到大幅度提升。

延时降低90% | 国内首份《超低延时直播(快直播)白皮书》技术解码_第6张图片

四、发展趋势:技术升级,快直播将赋能拓宽更多应用领域

此次白皮书也对快直播在未来发展及应用进行了展望,挖掘更多商业价值可能性。

在面对大规模强互动直播的应用时,高昂的流量成本阻塞了超低延时直播在部分场景的大规模应用。近年来,通过持续的技术架构的升级以及边缘计算的应用逐步使得超低延时直播大规模应用成为了现实。基于此,直播产业更多的商业化价值逐步被挖掘出来。比如在电商领域,随时发起的低延时秒杀活动赋予了电商直播更强的互动娱乐性,拉动了用户观看时长以及交易额增长;企业直播行业,多机位镜头结合超低延时直播技术应用,能够无缝切换现场多视角镜头,现场沉浸式体验更佳。类似的应用场景不断被各行各业发掘,一些依赖于线下或专业设备的特殊应用逐步在超低延时直播技术的助力下迁移到线上。

在不久的将来,超低延时直播的技术应用会释放直播行业更多的商业价值,助力更多产业实现业务变现和增长。

你可能感兴趣的:(音视频开发进阶,音视频,视频编解码,实时音视频,webrtc,实时互动)