身处互联网行业的人们总能感受到诸多世界最前沿的变化,我们说这是个万物互联的时代、这是个内容营销的时代。同时,这还是音视频行业发展变革的绝佳时间点。
究其原因,大致可五个方面来考虑:
1、基础网络的快速发展,给音视频行业带来了新的机会。
2、4G移动网络和宽带的普及,给音视频行业发展提供了基础保障。
3、移动应用呈爆发式的增长,社交、O2O服务、直播、网红等需求非常大。
4、企业级协作需求增加,移动办公、企业培训、远程服务等需求逐渐增强。
5、政策支持:政府大力推进远程教育、分级诊疗等,解决资源不均衡的问题。
互联网上的音视频通信挑战巨大,最基本的问题就是带宽,整个网络的情况复杂,丢包、延时、拥塞,这些都会对音视频的传输带来很大的影响。
我们日常使用的WIFI主要有两个频段,2.4GHz和 5GHz。2.4G只有三个独立信道,同时接入大量设备,信道间的干扰很大,虽然当前支持5G的设备还比较少,但是5G信道多,干扰少。而手机移动网络,则受到场地信号强弱的限制,速度较慢。
国内不同运营商之间的互通效果不理想,跨国网络质量差,对音视频传输是很大的挑战。另外一个挑战则与用户的使用场景相关,多人会议中,每个终端的性能和网络状况不一样,这就涉及到网络传输的优化策略。
在互联网上做音视频,做的不只是软件,而是服务,用户规模和服务可用性,对服务器的部署、运维、监控都有很高的要求。
如何应对音视频通信行业的这些挑战呢?我们认为这需要整个通信系统的优化。
从最前端的音视频采集、处理、回放,到音视频的编解码(包括硬件编解码加速)、音视频传输协议、网络传输优化、服务软件构架设计、服务器部署和连接、链路优化等各方面,整个音视频通信系统要作整体考虑,统一优化。
小鱼易连对整个音视频通信系统的了解非常深入,核心技术团队在音视频方面的积累非常深厚。我们设计出了业界最优的基于互联网的音视频通信整体构架,为这个构架去优化每一个模块。
小鱼易连掌握了最先进的音视频技术,用在实际的应用场景中,通过“智能硬件+云服务”,为用户提供极佳的音视频应用体验。
对于音视频通信,硬件是服务的依托,只有最好的硬件,才能给用户提供最佳的音视频体验。
小鱼易连设备从外观到结构、从系统定制到前端软件,完全是自主设计开发的,关键的元器件,如摄像头、感光元件、麦克风、喇叭等,都是经过反复测试挑选的。我们掌握硬件编码,能够修改与硬件相关的驱动设置,让硬件实现高清晰度的音视频编解码。
有了“云”,极大降低了用户使用企业级音视频服务的门槛。相比传统的音视频会议系统,云服务从成本和安装使用的便易性上都有明显的优势。但同时基于互联网的音视频云服务在技术实现上也有着巨大的挑战,接下来为大家详细讲述。
音频编码,我们选择的是Opus,它最大的特点是适应范围特别广,从特别低码流的窄带语音到超宽带语音,甚至到高保真的立体声音乐全部都可以支持;可以根据网络状况动态调整参数,不需要再次协商,特别适用移动互联网的音频传输。经过我们的私有扩展,Opus 还可以支持分层编码(Scalable Audio Codec)。
视频编码,我们采用的是基于H.264的分层编码(Scalable Video Coding,可伸缩视频编码)。它的特点是编码器可以在帧率、分辨率、质量上进行分层,一次编码可以输出多层码流,包括基本层和一个或多个增强层,基本层占用比较少的带宽资源,保证基本的视频质量;基本层加上增强层后就可以得到更好的帧率、分辨率或质量。不同的终端可以根据自身的解码能力和带宽情况选择只接收基本层,或者基本层加增强层。
另外,我们还对编码器做了深度优化,可以实现场景自适应。不同的场景实际上需要不同的编码参数,需要系统实时自动检测场景状态,自适应调整参数,在一定的带宽限制下选择最佳的编码参数。
点对点呼叫场景中,有时候因为码流无法穿越防火墙,需要有服务器来做中转;在多人会议的场景下,必须有中间服务器,否则要把所有人的码流传给其它所有人,带宽将无法控制。这就需要媒体服务架构 MCU(多点控制单元)。
传统MCU做的是“全编全解”,即把所有人的码流在服务器上解码,再编码合成一个码流,传给其他人。
我们采取的是基于音视频分层编码的架构,服务器不做编解码,只做码流的中转,各个终端根据自己的能力和网络状况,经过服务器中转向发送端请求合适的码流。这样做的好处是:服务器容量高、可扩展性强。对云服务来说,基于分层编码的构架是最优的。分层编码还更加适合有丢包情况下的纠错和补偿,这一点后面还会提到。
网络传输要解决的是音视频数据如何从一个点可靠地传到另一个点,需要在通话过程中对网络状态自动检测,包括带宽、丢包、延时和抖动,把这些信息反馈到发送方并实时调整编解码参数。
我们的音频处理策略是动态码率调整,根据带宽我们选择最合适的码率;对于丢包的情况,我们采取的是动态前向纠错(冗余保护),根据丢包的比例、分布,来确定最佳的丢包参数;丢包补偿算法可以根据语音的结构,进行平滑的插值,让人耳听起来还是一个连续的语音,不影响语义理解;经过我们的私有扩展,Opus 可以支持音频分层编码,可以生成两层码流,一个低码率的、一个高码率的,低码率可以用来做纠错。经过这些处理后,50%丢包情况下可以保证语音的清晰;80%丢包情况下可以正常通话。
视频处理策略方面,最基本的也是动态分辨率、码率调整;在丢包方面,我们采取的是动态丢包重传和前向纠错相结合的方式,丢包重传效率较高、延时较大,前向纠错的效率相对低一些、但能较好的控制延时。我们把两个方法结合,根据丢包状况、网络延时,选择最佳方式。只采取丢包重传的处理,30%丢包的情况下视频仍然流畅;采取丢包重传加前向纠错的处理,50%丢包的情况下视频依然是可用的,能保持基本的视频体验。
在服务器部署方面,我们采取的是多点分布式的部署方式。在不同的区域,根据用户的分布和使用状况,我们可以灵活部署多个媒体服务器,终端就近接入服务器,音视频就近中转,多服务器协作,动态调整,互相备份,降低延时,减少网络流量,提高服务的可靠性,最多支持万方会议,如果会议中断还可以自动迁移到附近的服务器。
网络链路优化是比较底层的,主要针对跨国线路,使用专有的链路优化算法,包括底层的冗余保护、动态多路由、智能丢包重传策略,保证整体的通话质量。
当前,音视频行业发展迅速,企业级应用需求强烈;同时,移动互联网的复杂性,给音视频应用带来很大的挑战,只有在编码、传输、软件服务构架、网络部署及链路优化等方面进行系统性的创新和优化,才能实现极佳的移动音视频体验。
通过小鱼易连,足不出户、3秒见名医,优质教育资源随手可得,远程协作、智慧政务,“穿越”千里面对面。零距离的工作与生活,已经实现。