五月底,我们在周末刷屏中轮番感受了一次罗大佑和孙燕姿的“联合”演唱会,集体追忆青春,一整个 DNA 动了。关注【融云全球互联网通信云】了解更多
疫情影响下,在人头涌动的体育馆相会变得遥遥无期,用线上的方式和大家见面,促成了多场引起大家强烈共鸣的线上演唱会。
事实上,我们在把很多线下的场景搬到线上,演唱会只是其中之一。语聊房、KTV、教学……在 RTC 实时音视频技术的支持下,线上玩法愈加丰富,也给技术实现带来新的挑战。
尤其是在有音乐参与的场景玩法中,对音质呈现的高要求就需要引入 3A 算法,并根据不同场景做针对性方案设计。
3A 音频处理技术,是声学回声消除(AEC)、背景噪声抑制(ANS)、自动增益控制(AGC)三种音频算法的合称。
在音频数据的处理过程中,在音频数据采集完成之后需要进行预处理,3A 是预处理的关键。
回声消除(AEC)是指在二线传输的两个方向上同时间、同频谱地占用线路,在线路两个方向传输的信号完全混在一起,本端发信号的回波就成为了本端信号的干扰信号,利用自适滤波器可抵消回波以达到较好的接收信号质量,即为回声消除。
回声消除的原理就是利用接收到的音频与本地采集的音频做对比,添加反向的人造回声,将远端的声音消除。
在容易产生回声的通信场合,自适应回声消除算法是一项不可缺少的技术,其主要应用领域有视频会议系统、免提电话、可视电话终端、移动通信或声控系统及会议麦克风等。
尤其在视频会议系统和免提语音通话中,回声的存在严重影响会议质量,特别是在企业远程会议中,由于传输延时加大,回声的影响更加恶劣明显。
背景噪声抑制(ANS)指的是将声音中的背景噪声识别并进行消除的处理。
背景噪声分平衡噪声和瞬时噪声,平稳噪声频谱稳定,瞬时噪声频谱能量方差小,利用噪声的特点,对音频数据添加反向波形处理即可消除。
目前,对于平稳的噪声已经有很多种简单方法能够成功抑制,但是生活中常见的一些瞬态噪声却依然缺乏好办法。
瞬态噪声的共同特点就是突发性极强,在时域上呈振荡衰弱的形式,持续时间在十几毫秒至上百毫秒不等;在频域上分布很宽,瞬态噪声的频谱基本上是和正常语音的频谱混叠在一起,很难进行抑制。
自动增益控制(AGC)主要用于调整音量幅值,提高语音通信系统在带噪声环境中的性能。
人们正常交谈的音量在 40-60dB 之间,低于 25dB 的声音听起来很吃力,而超过 100dB 的声音会让人感到不适,AGC 的作用就是将音量调整到人接受的范围。
音频响度及麦克风拾音控制是保证音视频沟通质量的重要技术手段,一般来说,音频标准、传输条件、人为失误等因素都可能导致音频信号之间出现声音突变或者响度不一致的情况,这时候就需要对音频信号放大或缩小以得到自然清晰的语音通信。
每个场景对于音质的要求和处理方式都是不一样的。为了提供更优质的服务,融云在不同场景下实施针对性的 3A 策略适配,力争给客户带来最好的音质体验。
通话场景以清晰人声为优先要求,无论用户身处嘈杂的户外还是在地下车库的弱网情况,对于清晰稳定的人声接收,都是通话场景的最核心诉求。
在通话场景中,融云如何针对性设置 3A 处理呢?
首先是 ANS 抑制背景噪声,将用户所在环境中的背景噪声最大程度地抑制掉。
平衡噪声是背景噪声的主要因素,该部分抑制起来并不困难。难点在瞬时噪声,瞬时噪声一般是突然出现在通话过程中的,比如飞机呼啸而过,学校的下课铃,汽车的鸣笛等等,这就需要通过 AI 算法智能降噪。
AI 降噪可以通过模型训练的方式,识别出需要过滤掉的瞬时噪声,随着语料库的逐渐扩大,AI 降噪的效果也会越来越好。
其次是 AEC 回声消除,回声消除是否开启也取决于用户是否使用了外接设备。比如,用户若使用耳机来进行通话,是不会产生回声的,自然也就不需要开启回声消除。
若直接使用手机麦克风和扬声器进行通话,就需要开启回声消除功能了。回声消除功能会对本地的人声产生一定的抑制作用,所以对于不同的音量范围和声音清晰度要求,回声消除的强度也会不同。
例如,在通话过程中,使用扬声器外放,并且把音量开启到最大,回声抑制就可以开到最大,尽可能地将回声全部消除掉。相应地,本地人声也会受到最大程度的抑制,需要在保证对方可以听清楚的前提下进行抑制程度的调整。
最后是 AGC 自动增益,它和回声消除抑制人声有一定先后逻辑,人声抑制后,通过自动增益来放大声音,让声音达到对端听清楚的程度。有一些手机的扬声器本身音量增益很小,也可以针对不同的机型做声音的增益,让本端的播放音量更清晰。
语聊房场景中,人声依然很重要。但是语聊房的一个重要特点是,需要在房间内播放音乐来烘托气氛,达到业务场景中的娱乐作用。
主播唱歌展示才艺,也是提升用户活跃度和营收的重要抓手。
那如何保证主播唱的歌传到观众端依然优美动听呢?这就与 3A 有很大关系。
首先是 ANS 抑制背景噪声,这里的需求和通话过程中是一样的,要将背景中的噪音全部去掉。
其次是 AEC 回声消除,绝大部分主播会使用外接耳机设备来进行直播,不需要考虑回声情况。
在主播使用手机麦克风和扬声器的情况下,回声消除程度不能太大,否则会影响麦克风采集到的主播说话声。这就需要达到的一个微妙的平衡,既要让音乐高音质地发布,又要保证麦克风采集到的主播人声不会因为回声消除而被抑制太多。
最后是 AGC 自动增益,需要对麦克风采集到的主播声音和音乐的声音根据原始采集设置的音量分别进行增益控制,不能让音乐声过大而遮盖住人声,也不能让音乐声太小而达不到烘托气氛的效果。
音乐教学场景对于人声的要求依然是清晰稳定,对于音乐的要求比语聊房更高。因为不同的乐器需要采集的声调范围会大很多,为了在远端还原出乐器的原始声音,就需要 3A 做特殊的处理了。
首先是 ANS 抑制背景噪声,在音乐教学场景中,背景噪声抑制的程度相对低一些,以保证乐器采集的声音不会在波峰位置被削弱,导致音高出现损失的情况。
与通话场景、语聊房场景不同的是,在音乐教学场景,降噪的颗粒度并不是第一位的。音乐教学老师一般在相对安静的室内环境,隔音水平比较高,所以首要目的是保证音乐不失真。
其次是 AEC 回声消除,在音乐教学场景中,老师们一般有相对规范的设备,对于回声消除的要求相对较低,可以通过外接麦克风进行采音,通过耳机进行播放,这样就不会出现回声。
最后是 AGC 自动增益,音乐教学场景中老师的弹奏和说话基本上不会同时出现,说明和演示交叉进行。此时,对于自动增益的要求是让麦克风采集到的人声和乐器声清晰地传达到远端。
在游戏开黑场景中,最重要的就是语音交流,几乎没有背景音乐需求,3A 处理的重点在于双讲效果是否优秀,回声消除是否达标。
首先是 ANS 抑制背景噪声,手游的场景发生在随时随地,即使是在拥挤的地铁或者飞驰的班车中或是小区附近的菜市场,都可以成为手游爱好者开黑的场所。
所以手游的背景噪音也就异常复杂,对于背景噪声的抑制需求尤为突出,与通话时的背景噪声抑制标准几乎一致。
其次是 AEC 回声消除,对手游场景来说,佩戴耳机和不佩戴耳机的玩家数量相差无几,都是需要重视的场景。
在佩戴耳机的情况下,回声消除基本上不需要处理。但是在外放情况下,若身处嘈杂环境,回声消除需要开到更大,并需要保证双讲的清晰和稳定,对技术提出更高挑战。融云已经投入了大量资源,开发调整了该场景下的回声消除算法,保证开黑玩家的通信效果。
最后是 AGC 自动增益,在开黑场景下,因为背景更为嘈杂,对原始采集声音的抑制程度更大,也就需要增益更大一些,以保证其他队友能听清楚本端声音,让对战时的对策商讨更加顺畅。
音频 3A 能用到的场景非常丰富,本文仅对主流场景进行介绍。
时下流行的狼人杀、剧本杀、视频相亲等场景中如果想达到好的音视频效果,也离不开 3A 处理。
相信随着应用的不断深入,3A 技术也会有更大进步,达到将所有目标噪音全部清除的程度。融云也将持续精进技术,致力于让每一个用户在实时音视频场景获得身临其境的感受。