从电信网到互联网,从运营商客户到行业客户。华为实时音视频团队一直以来,都用最为极致的技术与体验服务用户。基于互联网的视频通话是华为向业界推出最新的实时通信云服务产品,产品中有哪些独到的方案与技术?重点关注哪些行业?同时作为运营商出身的华为,在互联网实时音视频与传统话音关系是什么?来自华为云核心网产品线的高级架构师左俊在LiveVideoStackCon 2019深圳站对这些问题作出了解答。
文 / 左俊
整理 / LiveVideoStack
大家好,我是华为高级架构师左俊。今天我将与大家分享华为在通信云服务方面的技术探索与实践。作为负责此服务的架构师,我会先为大家介绍华为云的通信云服务是如何激活商业伙伴的市场潜力。
1. 哲学三问
1.1 我们是谁?
华为通信云来自华为历史最悠久的云核心网话音团队,是全球领先的实时音视频通信基础设施设备与解决方案提供商。我们从运营商业务出发,30年来持续专注于固移实时音视频、增值业务与VoLTE/Vo5G的技术研发与支持。
我们整个团队将面向运营商的服务作为第一步,从最早于1993年成功自研华为公司史上具有里程碑意义的C&C08交换机,到2005年将IMS推向市场并已获得300+商用合同,占全球运营商话市场的35%,排名第一;再到2017年以VoLTE/Vo5G开启话音/视频完全承载IP的时代,并帮助中移动建设全球最大的VoLTE网络……30年潜心深耕实时通信领域,为用户奉献最佳音视频体验是我们矢志不渝的目标与追求。市场的快速演进,对客户对技术与商业提出了更新的诉求。为此,2018年开始我们尝试开发通信云服务,旨在与行业分享我们在运营方面的经验,通过实时通信服务为行业应用赋能。
1.2 我们有什么建树?
在运营商领域,我们有颇为丰富的建树。例如中国移动的VoLTE服务有80%以上承载在华为的设备之上,并且我们也打通了全球首次Vo5G通话;除此之外,我们也负责沙特Haji活动的通信保障——作为全球用户最为密集的公共活动,Haji可带来20倍于日常话务量的通信需求与100倍于日常终端联接量的接入需求,其对整个核心网的流控以及可靠性来说无疑是巨大的挑战。而华为从2006年开始就作为Haji活动提供通信独家技术支持与服务保障,一改之前,当地运营商年年断网,服务宕机的囧境。我们希望将华为在运营商领域深厚的经验积累逐步运用在云服务的建设运营当中。
1.3 我们的愿景?
我们的愿景实际上就是将华为在运营商领域多年耕耘而来的经验积累与技术成果运用在云服务之上,为我们的行业合作伙伴拓展基于云的业务的无限可能。我们希望将多年在流控、可靠性等方面积累下来的技术成果带给客户,与此同时也把运营商的一些设备以API的形式开放给我们的企业级客户。与客户一起打造最佳体验的实时音视频联接,使能运营商和行业应用。
2. 华为云 · 视频通话服务实践与分享
华为整体是以运营商起家,从2010开始在云服务领域逐步发力。2018我们推出视频通话服务并将这一能力开放给广大客户。
那么过去一年我们做了什么?从一开始我们是怎样去思考的?纵观通信服务,RTC技术与行业趋势正不断变化,而视频通话行业尤为明显,各类型智能终端接入极大地扩展了市场的空间。从技术维度来说,5G网络接入开启了全新发展契机,而包括AV1、VVC、EVC、AVS3等在内的编解码方案百家争鸣竞争激烈;随着并行计算的不断兴起,智能计算的权重也越来越大。
从行业维度来看,在线教育和互动连麦早已成为大家踊跃探索的重点,而今天我将重点聚焦华为通信云服务在智能终端通信领域的探索。
从2018年可进行语音通话的华为音箱到2019年初支持视频通话的华为儿童手表,再到2019年中发布的华为智慧屏以及现在的华为手机与畅连通话,华为专注于将实时音视频逐渐融入各类智能硬件,并为消费者提供随时随地顺畅沟通的服务体验。
在开始时我们思考了RTC实时音视频所面临的挑战,首先需要考虑的是海量终端接入,今年我们提出年底系统容量须达到2亿,未来三年要达到20亿并覆盖全球;除此之外,各种类型终端可接入,统一账号体系下的各类多终端实现互通;我们还希望系统实际运行可靠性不低于99.9999%,同时以数据为镜,洞悉设备运行状态知晓运行细节并及时纠正错误从而优化用户体验。
从质量保证的角度考虑,首先我们需要清晰意识到现实的网络状况,并思考如何在有限的带宽下为用户提供高质量视频通话服务,同时还要使功耗、清晰度、码率和时延四者平衡且协同。
从网络优化的角度考虑,我们认为网络波动是一个正常现象,而缓解网络波动需要对现有的组件进行改造,从而保证用户以最优方案接入服务。
最后同样也是华为最为擅长的考虑角度就是互联互通,也就是打破数据与服务孤岛,实现全连接与全业务互联。
2.1 海量终端接入
可靠性和大容量
我们在构建系统时考虑以上四个方面,而可靠性和大容量是我们一开始就重点考虑的,因为不可靠在网络当中是一种常态,可能出现包括光纤挖断、业务浪涌、突发丢包、防火墙拦截、DNS故障等在内的多种突发状况。应对突发危机的有效措施是快速部署边缘节点并自动选择最佳节点以处理业务或媒体,这对于整个云服务来说至关重要。这里我们需要考虑的是如何实现快速部署并保证系统可以进行水平扩展。
我们给出的实现业务高可靠的设计理念是“E2E多层次多路径”。首先E2E化整为零,将对服务的拆解合理化并保证每一项服务都是可去水平扩展,接入模块可有效进行负荷分担以及最优路径接入。对于关键节点,我们在设计时也是考虑了对于Region级别的容灾;而对于特别关键节点与核心节点,我们会考虑跨网或跨云服务商的部署,从而使整个云服务做到全负荷分担且任意节点可用。
以数据为镜
以数据为镜,实际上就是数据驱动下的实时监测与问题快速识别。传统运营商在设计系统时由于各个模块间彼此分离,形成数据孤岛,在很多情况下获取不到所有数据,这对运营商来说是个很大的问题。我们在设计这部分时采用了传统OTT,通过端测与SDK上报数据,每通话平均上传2000+的指标,系统可在5分钟内定位问题,85%的问题,可由智能运维系统AI问题库的方案,自行修复,自行解决。
安全与隐私同样是值得关注的重点。从一架构开始就严格遵循GDPR(《通用数据保护条例》General Data Protection Regulation,简称GDPR)的要求,对所有数据进行匿名化等处理。上图右侧图线展示了感知的整个过程,其中蓝色竖线代表发生了一次网络震荡。在震荡的过程中,网络丢包、U-VMOS统计、帧率等指标异动会在第一时间被侦测到并体现出来。当然,这种侦测是基于用户级别去做的。
在设计之初我们就意识到,面对海量用户终端的安全隐私问题,仅仅从技术上实现安全是远远不够的,而应当确保整个开发过程与解决方案的安全和可信。华为为此做出了许多努力,从开始的威胁建模到最后的安全验收测试与交付维护,包括其中的渗透测试等等。从开发人员的可信到发布过程的可信,二进制编码也可做到溯源……华为将可信植根于日常流程,实现技术与过程融合可信,极大提升了整个平台的隐私安全水平。
上图右侧展示的是我们所做的一个安全解决方案。安全认证确保只有通过鉴权的用户才能接入,而视频通话云服务不会保存用户通话隐私;媒体端到端的加密有效确保了通信安全,客户可以使用自已信任的存储资源,来存储媒体,让客户放心,安心的使用业务;
2.2 质量保证
关于质量保证,通过分析发现在用户尤其是中国典型宽带用户的使用过程中,接入网络上行带宽受限,普通家庭带宽留给通信的上行带宽仅1Mbps,严重限制了家庭场景的实时视频通话的体验。若想达成一个有竞争力的解决方案,我们必须将720P与1080P下的整体码率降到1Mbps以下。
为实现该效果,我们使用华为自研的HW265技术(HW265是华为多媒实验室基于H.265进行全方位优化的编码技术,兼容H.265但现网综合表现远优于H.265),作为编解码器——去年和今年的MSU世界视频编码器大赛,华为HW265编码器蝉联冠军。所以从目前来看,HW265能够把720P下的码率降到1Mbps以下。除了正常的编解码之外,一些后续我会提到的前后处理也十分必要,可进一步降低码率,对于在带宽受限网络波动的场景下保证视频的有效传输至关重要。
也许有人会对H.265的兼容性有一定疑虑,这里我们使用了诸如非对称编解码等小技巧以实现端的广泛适应性与系统可控。
前后处理——AI使能高清低码
除了编解码层面的改进,整个前后处理过程还能被进一步优化。这里我们主要进行了以下实践:在发送端,我们基于ROI的动态检测来检测人的视觉关注区域并为同一画面分配不同码率;在接收端则是借助超分辨率,尤其是在低码率的场景下,例如将360P的视频画面投放到大屏电视上。此时如果不使用超分辨率那么电视所呈现的画面将会非常模糊,用户体验极差。所以我们在接收端使用超分辨率的特性实施对画面质量的跃升观众主观感受能达到720P的效果。
实现超分辨率时我们也用了一些小技巧,例如在Y通道上我们运用超分辨率模型而在U、V通道上我们使用双三次线性插值从而控制算力与复杂度,而其对整体清晰度的提升实际上依然能带来一个比较显著的效果。目前在我们内部的主观双盲测试中,ROI和超分辨率的MOS分可接近4。
2.3 网络优化
网络优化的内容非常细碎,整个RTC通信一般分为以下九个环节:采集、前处理、编码、打包、网络传输、解包、解码、后处理与显示。实际上这些步骤还能进一步拆解细化,例如“打包”包括网络适应性等,仅凭借一种黄金方式来降低整个端到端的时延显然是不现实的。一个成功的低延时解决方案,其关键在于日积跬步,从细节着手优化。
首先在采集显视阶段,时延主要取决于硬件性能;而前后处理阶段,我们主要通过插件化架构与按照不同业务场景动态按需加载最小插件集来降低前后处理时延。;在不必要的场景,我们就不使用插件,因为某些插件会增加时延。
对于编解码阶段,我们根据芯片能力自适应选择软、硬编解码从而降低编解码时延开销,因为硬件编解码的处理速度会更快一些;对于弱网场景,准确地预测带宽至关重要。因为如果你使用FEC和ARQ就会极大提升时延,对于整个RTC的通信来说是比较致命的。我们借助自研网络适应性强化学习模型,实时准确预测网络带宽;同时作为编解码的输入,降低弱网条件下JitBuff引入时延。
对于网络传输而言,转发模型必选,这就意味着MCU不可用,MCU必须转变为WebRTC。我们借助SFU纯转发模型降低网路节点处理时延;,并基于全网QoS信息智能选择最优传输路径。
在网络传输的过程中我们使用智能优化算法,借助强化学习传输模型可有效提升网络带宽精准预估。上图左侧表示传统带宽预测算法,主要有以下弊端:模型固定、基于丢包与时延进行相应的响应以及参数设置依赖经验值。所存在的问题就是实际带宽和测试带宽之间的比例,可以看到其丢包率特别高且收敛时长较长。我们与华为公司内部专门负责网络算法的团队一起研究,针对网络上各种各样的模型进行了模拟、训练并强化学习,从而有效缩短收敛时间与降低丢包率。采用强化学习模型后,带宽预测准确度提升20%,带宽调节收敛时间缩短1倍,带宽下降期间丢包率最大从60%下降到10%以内。这些数据可反映出强化学习模型的出色效果。
网络优化的最后一个部分实际上就是实时媒体精确导航。对于时变路由来说,通过一个集中化大脑控制下面所有节点以及数据流向,例如从Pop1到Pop4可能经过Pop3来实现优化。每30秒做一次重新路由的计算,基本做到每一通通话都会有一个自由路径,在通信的过程中也能做到相应的切换而不丢包。对于最优接入来说,首先将地理位置、用户历史QoS以及历史位置信息作为综合判断的依据,并将这些数据统一上报至中心节点,中心节点为用户判断其相应位置。当然,这里也有许多未来亟待优化的关键点,如质优终端直连与POP点间的突发丢包——目前我们也观察到,在整体丢包过程中,突发丢包会在15秒以内造成90%以上的丢包,这其实对于媒体的精确导航来说无法实现动态切换,所以为解决这种突发丢包我们未来还有许多工作要去做。
2.4 互联互通
互联互通是华为非常擅长的领域,实际上就是建立一个统一的互联互通大网,其中涉及到运营商与所建立的RTC网络之间的互通以及PSTN的转换等。运营商PSTN和私有账号体系之间如何建立转换关系,每一个解决方案都有所不同,这里最重要的就是建立资源号码的映射关系。
3. RTC的未来
接下来我将与大家分享我对于RTC的未来的一些思考。
最近5G技术成为大家热烈讨论的重点,大家也热切希望5G能够给整个RTC产业以及整个直播行业带来革新,可实际上这并非大家理想的这么完美。
5G系里面的许多方案实际上也是分阶段推进的,包括SA和NSA阶段的部署。现阶段在国内以及海外部署的所有方案都处于NSA阶段。NSA阶段实际上就是把无线侧的空口技术完全换成5G接入,但实际上核心网侧以及内部网络连接侧都没有发生变化。对于整个网络来说,这并不能完全做到5G宣称的低延时大带宽。除此之外,如上图中三大业务场景指标需求对比所展现的那样,5G下又细分了三个场景:eMBB、mMTC和uRLLC。其中eMBB就是我们所说的大带宽,大多数消费者所使用的互联网访问就是基于这种场景,此场景在运营商端主要依赖于广泛部署而不是热点部署;mMTC和uRLLC实际上是基于热点部署。大家一听到5G就说5G会给我们带来低时延和大带宽,而eMBB相对于4G虽能降低一些时延但远称不上是显著降低,若想显著降低时延则有赖于uRLLC,可uRLLC又是基于热点部署,只能被用于一些特定企业或专业场景。所以大家需要清晰地意识到RTC与5G的新时代,挑战与机遇并存。
之前我们提到NSA阶段下部署的5G实际上只进行了无线侧的覆盖与提升。接入侧的时延和远距离传输所造成的时延问题其实并没有被完全解决。我们期待运营商能够在未来2~3年内解决该命题。
对于RTC来说,挑战依旧严峻。当人们讨论5G时永远不会绕过的话题就是5G+VR/AR,而实际上人们提到的只是空口和传输时延的降低。如果串联起端到端的整个传输与处理链路就会发现,编解码所占时间占到整个端到端时延的50%以上,从编解码层面入手降低时延至关重要。
5G时代,大算力场景层出不穷,在此场景下手机性能显然无法满足大算力需求,所以其网络模型也会相应发生变化。有时鉴于手机能耗与电源管理的需要,一些正常的计算可能会被传输至云端边缘来处理,这样就形成了一个边缘与端侧联动的关系。这就会造成5G的边缘侧流量显著增大,随之我们的整个设计模型也会发生一定变化,这也是未来我们需要从架构和解决方案角度考虑的事情。
看过《星球大战》的同学一定不会对里面的全息投影感到陌生,可以说全息投影是我们追求的终极理想,但实际上这项技术距离显示还非常遥远。也许有人会说在一些舞台表演上已经看见过类似全息投影的应用,实际上这并非真正的全息投影,而是一种被称为“佩珀尔幻象”的视觉效果。其有自己的限制条件,如四周的黑幕、使用场景非常受限等。若想实现理想中的所谓全息通信,显示介质和辅助自由视角通行交互至关重要。我们不能单纯地在采集端仅收集一段图像并传递到观看者端,而应该传递一个模型。例如采集一张面孔,正常图像由边缘侧进行计算之后会驱动网络上的模型,驱动所形成的模型会被传输至对端,此时观看者视角决定对端的形象呈现,且存在两种思路:
专用终端+直接模型矢量传递:深度摄像头、模型矢量传递、模型渲染。主要在端实现:计算、功耗问题要解决。
普通终端/眼镜视频采集+网络侧分析转换:模型匹配、视频->模型驱动、位姿数据驱动观看视角、FoV。对媒体诉求:超低时延转换+传递+边缘计算
这两种方案谁更甚一筹,还是个未知数。
4. 华为云·视频通话未来的方向
4.1 在线直播
对于在线教育场景来说,可达性、时延、卡顿率、稳定性与易用性是决定实时视频业务体验成败的关键指标。
4.2 在线教育
在线直播中的互动性、适应性与易用性至关重要。视频通话端到端时延<300ms才能供主播与观众间进行互动。而从480P到1080P的多种分辨率也需要适配多种终端;极端网络自适应,使得用户在复杂移动网络环境中仍能够享受稳定可靠的通话体验;用户友好——不挑网络,体验稳定可靠与开发友好——高效集成,快速获取能力同样是值得关注的方面
4.3 智能硬件
满足两千万以上规模的智能硬件接入,可靠的技术保障不可或缺。
视频通话做为互联网上通信的基础通信能力,将会像空气一样, 时刻围绕在你身边,与各种线上业务结合,帮助商业合作伙伴线上服务的方式的创新、服务质量的跃迁和服务体验的提升。实现更多服务触点,满足用户全场景需求,挖掘潜在商业机会。
这是一个很大的市场,华为云.视频通话,有技术、有服务、有体验。希望与合作伙伴一道颠覆线上服务体验,帮助其实现商业价值规模裂变。