12月13-14日,LiveVideoStackCon音视频技术大会在深圳举办。在解决方案专场,即构科技解决方案架构师张靖雨发表了《不同场景下如何实现最优用户体验》的主题演讲。
她首先从整体上介绍了即构在保障用户体验方面的思路,并通过三个具体的应用场景详细介绍即构是如何保障不同场景下用户的最优体验。
由于内容比较丰富,我们将分成上下两篇分来进行分享,本文为上篇内容。
大家好我叫张靖雨,是即构科技的解决方案架构师。
即构目前已经为200多个国家和地区提供音视频服务,在全球范围内有500多个BGP节点覆盖,包括边缘节点、中心节点、计算节点、流媒体节点。
为众多行业头部平台提供技术和服务,海外有UpLive、LiveMe、mico,泛娱乐有花椒、映客、喜马拉雅,在线教育有好未来、一起作业网、掌门一对一等等。
随着音视频的应用越来越广泛,即构的服务客户量也越来越大。目前即构平均每天在线音视频互动时长已经达到了6亿多分钟,在这么大的使用量下,即构是如何保障用户的最优体验?
两个手段,保障用户的优质体验
用户体验一定是来自用户,我们先来听一听用户的声音:“我看白板跟快进一样、我看视频太卡了、我一打开就黑屏了”。
作为技术人员,我们其实很难从这些反馈中找到真正的问题,但通过不断积累,我们总结出用户问题一般会分为两个大类:一类在客户端,有崩溃、卡顿。另一类在服务端,有延时、丢包、可用性。
确定了问题的大致方向,下面我们来看解决的方法。
实时音视频最重要的功能就是推流和拉流,以前推拉流大部分用RTMP走CDN,但CDN无法统计推流数据。即构对每一条流都做了实时监控,能真实的看到用户推/拉流是怎么样的?流质量好不好?
实时质量回调
从客户端进行推拉流的操作开始,我们会每3秒进行一次数据统计,包括推流的帧率、采样率、码率,质量,推流端设备IP和型号等等,以回调的形式上报给后台。
加上即构有整个云端的控制台,可以监测每一条流从一个用户出发,到另一个用户截止,它所经历的全过程,形成全栈监控。
QOS策略
即构的服务是基于全球公有云资源的融合云,可以快速平滑扩容,快速切换公有云的云商,快速调度不同云的不同节点。我们通过以下两点来保证我们的QOS:
第一,即构目前整个后端500多个BGP的节点之间,会以一定的频率进行互通测试,互通测试的结果构成了即构调度系统监控平台的数据基础。
即构会实时拨测每两个节点中间的延时质量,采用多中心架构,让我们的边缘节点不只覆盖推流或者拉流一方,而是进行多点调度。
第二,即构现在每天都有超6亿分钟的音视频使用时长,覆盖全球200多个国家和地区,这些大量的线上数据就构成了即构的云端网络大数据平台。
我们会通过实时的线上数据来判断每一个地区,每一个用户,他到底走哪一条线路,哪一个边缘节点,哪一个中心节点质量最好。
以上介绍了即构如何从整体上保障每一个用户每一条流,都以就近的、高质量的完成每一次调度。落地到具体场景中,不同场景下用户体验的侧重点也有所差异。
“音视频+AI”带来的体验优化
实时音视频+AI的应用场景非常多:
在线教育
今年大热的AI智能课堂,可以在最大程度降低老师资源成本的情况下,让学生获得接近真人老师上课的智能体验。今年暑假,即构AI课堂解决方案让在线教育平台的课时量增加了近10倍;
此外,教育平台方还会构建课堂质量监控平台,依靠AI去识别老师上课的时候有没有涉及到相关的敏感词,老师的动作是否合乎礼仪,学生是否有打哈欠,有没有在玩手机?
基建行业
在基建行业,音视频+AI让安全检查更智能。即构有一个海外基站的施工方客户,客户需要每一个施工人员上班之前先打开APP,通过视频的方式去识别他的工装和安全设备是否合规和完整。如果没有的话,就紧急呼叫客服进行视频检测和提醒。
泛娱乐行业
在泛娱乐行业,针对涉黄、涉政、涉赌、涉毒等违禁内容的检测已经成为平台规避运营风险不可缺少的手段。
音视频+AI带来了更多新场景。在这些场景里,如何打通两者,为用户带来最好的效果呢?
实时语音+AI鉴定
之前,客户要在实时语音中加入语音识别,需要先找到即构,再找科大讯飞等语音识别的厂商,分别集成两家的方案,工作量非常大。
基于此,即构做了和AI语音识别的打通方案,我们会先集成AI识别厂商的方案,提供一个实时的用于鉴别的即构拉流器。
这个拉流器部署在AI厂商的后台中,并按照业务方制定的鉴别策略去进行实时语音拉流,将拉下来的流翻译成文本文字进行识别,识别数据实时回调给即构的后台,即构再把数据关联好回调给客户后台。
客户通过这个方案,只需要集成一个即构的SDK,就可以从后台看到,哪个房间、哪一个主播、在什么时间段,可能有敏感内容,然后及时的采取措施。
实时视频+AI鉴定
实时视频+AI鉴定有两种方式:第一种是鉴别截图。第二种是鉴别实时视频码流的关键帧。
第一种方式比较常见,即构在客户端进行截图,然后上传给AI方的后台识别。
第二种方式,即构同样会提供一个视频的拉流器给AI方,然后在AI方的后台实时拉流,即构会负责解码还原成原始的数据,然后AI方再对视频码流里面的关键帧内容进行识别,同样它的结果会和即构后台的相关数据进行打通,并最终回调给即构的客户后台。
即构的音视频+AI方案可以对接任意的AI厂商,不仅保障了用户体验,还能根据客户的真实业务场景,提供性价比最高的方案。
TT语音是国内语音领域的头部玩家,用户量非常庞大,此前TT语音进行音视频鉴别,每一条流转换成文本进行识别,会产生不菲的第三方的鉴别费用。
而通过即构“音视频+AI识别”解决方案,能够把TT语音每个房间9个麦位,9个人的语音流合成一条给第三方鉴别,将TT语音的内容鉴定费压缩到原来的近1/8。
关于更多场景下如何实现最优用户体验,请看下篇。