音频直播,这里面到底有多少坑


1 直播,能否成为 音频的下一个爆发点

互动直播发展如日中天的同时,纯音频直播其实也在悄然扩大应用的范围。早在2014年的世界杯期间,考拉FM就率行业之先通过纯音频方式连续对64场赛事进行了实时直播,此后考拉FM将音频直播应用到了演唱会、电影发布会、娱乐明星专访等等领域。随后,喜马拉雅与蜻蜓FM也相继推出了音频直播功能。


随着互动直播成为了网络社交和粉丝经济的全新入口,直播进入了新的阶段。直播一方面向着更轻悦化、娱乐化、生活化、垂直化方向发展,另一方面向着与更多商业结合的方式发展。视频直播打造了一批网红,催生了网红经济,音频是否也能复制视频直播的模式呢?直播,能否成为音频下一个爆发点呢?


事实上,音频直播在媒体属性方面具有与视频直播类似的体验效果,应用价值已被考拉FM、喜马拉雅等应用大规模验证。除此之外,音频直播还能在哪些点上找到突破呢?


移动场景下,音频直播更适合


例如在开车、运动等移动场景下,用户很难一直盯着手机看,一是极度不安全,再者对4G流量消耗的负担也较重。这方面,音频直播就能弥补视频在移动场景下的不足,更符合用户习惯。移动场景下,音频直播将补齐用户对碎片化互动直播接收的需求缝隙。


在某些垂直领域音频直播更具实用性


比如在教育培训、微信群直播等目的性非常强的垂直领域,音频直播相对于视频直播来说,去掉了花哨的弹幕、鲜花等互动,更能将用户的注意力集中在内容本身,加上音频直播发起流程更简单,更轻量,费用也更低,在这类应用场景中,相对于视频直播,音频直播更具实用性。


音频直播技术要点

和视频直播一样,音频直播背后同样有一套复杂的技术支撑,流程基本和视频直播一样,由 采集 → 编码推流 → 网络分发 → 解码 → 播放 五大环节组成。


其中:

(1)采集环节是通过麦克风等对声音进行采集,将声音转换为数字信号,这里面需要配置的参数主要是采样率、采样位数、声道数;

(2)编码环节是将较大的数据量压缩成较小的数据进行网络传输,常用的编码算法一般有AAC、Speex等;

(3)网络分发是针对大规模音频直播进行CDN分发,低延迟和稳定性最为重要。视频会议等双向音频交互要求更低的延时,一般会采用私有协议、专线等方式来保障;

(4)解码和播放环节是将解完码的音频在多平台进行播放,多终端兼容性较为重要。


除了以上主干环节外,音频直播还必须要考虑的技术点主要有去背景噪音、去回声、流畅、低延迟 等等。所以一个比较完善的音频直播系统的典型流程会变成下面这样:


然而,在实际业务应用中,由于诸多外部因素的影响,音频直播的实现往往不会这么简单顺利,观止云在承接大规模网络音频直播服务中,也遇到了大量的坑。我们将通过系列文章将这些坑分享出来,本文作为音频直播大坑系列第一篇文章,将基于观止云实际案例分享如何支持Flash推送的音频流在微信平台播放。


音频转码

大部分在线教育直播系统中,老师和学生头像的画面一般都直接调用Flash进行推流,而Flash推流音频只能采用speex编码(AAC专利所致)。随着微信平台各方面优势凸显,直播流需要同时分发到微信平台的H5页面上。大家都知道,H5只能播放HLS直播流,而HLS协议是不支持speex音频格式的。

观止直播云支持云端音频转码功能,在收到Flash推上来的直播流后,在服务端将speex转为AAC,再通过HLS+协议分发到H5页面。音频转码功能不但解决了Flash推流微信平台播放的难题,HLS+协议分发还能显著降低传统HLS分发的延时,是该应用场景下最佳解决方案。

音频直播,这里面到底有多少坑_第1张图片


结语

视频之后,音频直播能否也在这波直播大浪潮中挖掘到独特的商业价值,这也许要留给时间去解答。但就从技术角度而言,大规模的音频直播要想实现良好的互动体验,也必然会经历无数的大坑。观止云后续音频直播系列文章中,将会陆续对音频直播卡顿、无声、多终端兼容、基于混音技术实现的音频直播连麦等技术进行分享。


你可能感兴趣的:(音频直播,这里面到底有多少坑)