anyRTC在音频领域的探索

前言

WebRTC 包含了语音引擎、视频引擎和网络传输三大模块,其中语音引擎是WebRTC中最具价值的技术之一,实现了音频数据的采集、前处理、编码、发送、接受、解码、混音、后处理、播放等一系列处理流程。但是该语音引擎是开发初衷是VoIP通信,正常的通信功能完全能满足,但是要做到千人千面显得捉襟见肘。

anyRTC借鉴了WebRTC的语音引擎,在此之上做了全方位修改:

  • 音频Profile的实现:支持Voip和Music 场景,实现了采样率、编码码率、编码模式、声道数的综合性技术策略。用户可以根据自己的场景设置音频模式。
  • 音频伴奏功能:支持本地以及网络音频资源:支持wav、mp3、m4a、aac等格式。
  • 双讲优化(音频双工):适配6000+设备,针对设备类型以及型号做特殊算法处理(Android)。
  • 领先的 3A算法:智能适应各类环境,全面消除回声,并提供超一流的双讲表现;可在不损伤语音音质的情况下,有效消除各类噪音;可实现音频的自动增益,即使在嘈杂环境下用户也能体验优异。
  • 美声:在高音质基础上,进一步提升声音的表现,达到声音美化或改变音色的效果。
  • 变声:将声音朝着特定的方向进行调整以达到区别原声的效果,如大叔、小姐姐、猪八戒等变声效果变声效果。
  • 支持耳返功能:支持调节耳返的音量,耳返延时低至 50ms。
  • AI降噪功能:实现人声和背景噪声实时分离,有效抑制常见噪声,杜绝回声和啸叫,为用户提供超纯净音质体验。
  • 音频超分:将低分辨率的音频转化为一个高分辨率的音频的过程,即提高了采样率,或者说重构了一部分消失的频谱。为用户提供低带宽高质量的音频体验。
  • Windows屏幕共享声音支持回声消除算法:解决屏幕共享的时候选择共享桌面音频,跟本地麦克风混音时候的回声问题。

通信场景下用户痛点和技术难点

经过长期的调研和用户回访,anyRTC整理了通信场景下用户遇到的痛点和技术难点,做了以下整理。

(1)无声问题

​音视频通话过程当中就能碰到无声问题,像驱动异常,硬件设备异常,无麦克风权限,设备初始化,电话打断等也能造成无声问题。

(2)漏回声

在音视频通话过程中还会出现漏回声的问题,在传统的PSTN电话系统中基本不存在回声,因为延时比较低,而且大部分电话都是话筒模式,很少使用外放。但是使用VoIP客户端,比如说PC和手机终端,越来越多的人喜欢使用外放,而不需要把耳机放在耳朵上,这样就容易产生回声问题。

(3)声音嘈杂

声音嘈杂的问题,比如在移动场景,室外,或者是办公室里办公,办公室里的敲键盘声音、水杯喝水的声音,户外嘈杂环境,比如超市、机场,各种嘈杂的声音会通过麦克风传入通信的通道中,导致通话声音嘈杂,传统的降噪算法很难去处理这些复杂的噪声。

(4)双讲声音小或听不到的问题

当一个频道出现多个人同时说话的时候或者在一个嘈杂的环境中通信的时候,声音会断断续续,或者一方声音很小,听不清,对多人音视频通信带来了很不友好的体验。

(5)音频卡顿

还有像声音卡顿的问题。声音卡顿大家第一时间会想到是和网络相关,但是实际解决问题的过程当中,我们发现有很多的原因都有可能导致音频卡顿。网络虽然占了很大一块,但不是所有的原因。

比如在信源质量差的时候进行声音信号处理的过程中会出现卡顿,因为一些很小的语音会被当成噪声消掉。同样,CPU过载,播放线程同步失效也会导致卡顿,处理回声采集播放不同步的时候,导致漏回声的现象也会出现卡顿。所以在会议过程当中,会有来自很多方面的原因,导致最后的音质受损。

(6)同地多设备进入

在通信的过程当中,还会出现同地多设备的问题。在以前使用电话的场景下,大家基本不会碰到这样的问题,因为一个房间就一个电话,不存在多个电话、多个声学设备在同一个地方入会的情形。现在随着会议解决方案的普及,每个人电脑上面都能安装一个协同会议的客户端,大家习惯性带着电脑参加会议,分享屏幕和PPT内容。每个人都进入会议,把他的屏幕分享打开,一下子会发现,在一个频道里面出现了很多个终端,同样多个声学设备在同一个地方进入频道,立刻带来问题就是有回声。

(7)专业的调声台的使用

在通信的过程当中,还会出现用户使用专业的调声台,连接输入高音质伴奏,音乐有高音和重低音的场景,当这些音乐输入到通信设备的时候,经过3A处理,会把声音修剪,达不到现场听的效果。

(8)音乐教学场景

对于在线音乐教学而言,用户不仅要求音视频通话需要体现实时的特性,更要求绝对的高质量,例如,音质的流畅性、音质的还原、高低音的细微甄别,以及画面的呈现质量,但是音乐场景千差万别,各种乐器教学要求都不一样,音视频处理的机制需要跟随场景的变化而变化。

AI技术+领先的3A算法+精准的设备适配提升音频体验

anyRTC结合AI技术+领先的3A算法+精准的设备适配,从以下4个方面全方位的提升用户在音频方面的体验,确保用户可以有“声临其境”的感觉。

(1)音频超分

​根据低频的信息进行预测生成,把高频的分量很好的补偿出来,让原来听起来比较沉闷,不够丰富的语音变得更加明亮,声音音质变得更加丰满。

(2)美声算法

对音调、音色、动态、韵律、空间效果等进行调节,达到人声的美化。这种方法不仅用户接入门槛低、成本低,并且能保证实时互动的体验。

(3)AI降噪

  • 基于计算听觉场景分析理论,应用深度学习技术,能够在不依赖任何硬件的基础上,实现将人声和噪音分离,有效抑制环境中的各种噪音。只需要打开AI降噪按钮就可以实现智能降噪功能,大幅度提升通话质量。
  • DHS深度啸叫抑制:基于深度学习技术,智能阻断声反馈回路,抑制啸叫产生。有效解决实时游戏、在线会议等多人实时通话场景下啸叫问题。保证两台或者多台设备距离特别近的时候没有啸叫声音产生。

(4)领先的3A算法

智能适应各类环境,全面消除回声,并提供超一流的双讲表现;可在不损伤语音音质的情况下,有效消除各类噪音;可实现音频的自动增益,即使在嘈杂环境下用户也能体验优异。超过了6000+的设备适配。

anyRTC在音频场景下的应用

(1)音乐教学

线上教育已经走进了千家万户,大家也逐渐接受和认可了这种教学模式,而线上音乐教学也有针对性的出现了。

线上音乐教学针对的用户群体是学习声乐和乐器的小朋友。与平常的学科不同的是音乐教学对于线上交流的音质有着较高的要求,仅仅听清楚是够的,要能够听清语音语调,声音变化的强弱等一些细微的差别。保证老师在视频的另一端与在线下听到的声音相差无几。

anyRTC在音频领域的探索_第1张图片

(2)语音聊天室

​语音聊天室大多数针对用户和陌生人之间的交流,通过聊天交流扩充自己的社交圈子,认识更多的朋友。

为互动体验并增加趣味性,通常需要美化人声或为人声增添丰富的音效。很明显,在语聊等场景中,用户已经不在满足于被听见。被听清、能互动,以及拥有高清的音质体验才是他们所追求的。希望不仅能有最佳的音质,还想要让自己的声音变得更动听、更有磁性!

anyRTC在音频领域的探索_第2张图片

(3)在线合唱

在线合唱与以往的合唱不同,以往的合唱都是用户开启合唱功能之后先一个人和伴奏演唱,完成之后上传,其他用户可以使用这个已经有人声的伴奏再唱一遍,实现“合唱”,而我们要做到的合唱是两位用户同时在线唱歌,合唱的伴奏是同时通过网络发送给两位歌手的,而且两位歌手在演唱的同时可以听到彼此的声音。这样对于音质与声音的清晰度有着较高的要求。

anyRTC在音频领域的探索_第3张图片

anyRTC在音频场景下的未来展望

anyRTC 会在用户的使用场景上进行突破,结合AI技术去落实场景:

(1)AI变声

​AI变声集语音表征学习技术、风格迁移技术之大成,不再是冰冷的、千篇一律的角色声音。

用户通过语音输入聊天内容,语音编码器自动将内容分为两部分:一部分为聊天内容资料,AI对聊天内容资料进行声纹特征编码,以提取用户的音色;另外一部分为韵律资料,也就是用户说话的节奏、流露的情感、包含的语气,AI通过对音频特征的压缩编码及特征抽取,学习用户的说话风格。与此同时,用户选择一个角色,AI自动激活说话人编码器,调出目标说话人的音色并进行替换,最终得到带有角色音色的音频。

AI变声可以应用在语音连麦直播、语聊房、开黑语音、K歌房、FM电台等场景。用户可以自由选择自己喜欢的声音进行变换,极大的提高用户的体验感,增加用户的留存率。

(2)AI音频超分

视频超分可以让图像变得更加清楚,而音频超分的目的是为了让声音更加清晰,更符合原声。

音频超分从以下三个方面入手:

  • ​扩展带宽

带宽扩展的功能是把音信号被移除掉的高频区域的信息恢复出来,让语音信号听起来更明亮,更像面对面的交流。

  • 隐藏丢包

一段音频信号通过网络进行传输时,要首先被分为若干帧,然后被编码、组包、发送。当网络状态不好或者有波动时,就会有部分包无法按时送达接收端,即发生了丢包。AI音频超分通过学习大量语料,能够覆盖到更多场景,补出丢包的声音,使得声音得到还原。

  • 语音增强

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。也就是从含噪语音中提取尽可能纯净的原始语音。

AI音频超分对于线上音乐教育有着至关重要的影响。目前线上音乐教育最大的痛点就是声音不清楚,音质不达标,老师没有办法像在线下一样听清楚小朋友的发音和音准,而AI音频超分正好可以解决这一难题,使得线上音乐教育在未来能够更近一步。

(3)AI编码器

AI编码器是神经网络的一种,经过训练后能尝试将输入复制到输出。自编码器由编码器和解码器组成。

AI编码器本质上是学习输入数据低维特征表示的神经网络结构。AI编码器可以使我们获得更高的码率、分辨率、色深、动态范围等。

AI编码器可以用来去除图片噪声。图像噪声是指现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响。

(4)AI降噪

AI降噪可自动实现音频降噪和调高音量等功能。可以极大消除音频中的风声、水声、电流声等多种噪声,与此同时,还可以调高音量,最终导出高品质的音频文件。

语音连麦,游戏开黑现在也是现在娱乐行业非常热门的一个环节,主播与主播,主播与用户之间连麦沟通,可以增强直播效果,增加用户的粘性。游戏开黑更加受到年轻人的喜爱,大家在打游戏的时候可以保证良好的沟通,让游戏效果更加完整。

语音连麦和游戏开黑都对周围环境有着很高的要求,周围的环境如果比较嘈杂就没有办法有很好的沟通效果。就拿游戏比赛直播来说,比赛台上选手们时时刻刻都在进行着沟通,台下的用户会经常给选手们加油打气,从而造成队友之间的沟通不清楚,听不清指令,对游戏的进行有很大的影响。而AI降噪可有极大地缓解噪声对于用户的影响,AI降噪可以自动识别周围噪音的,清楚的将人声传递到用户的耳中。

以上是anyRTC对声音这方面的总结,以及一些未来的研究方向,后续anyRTC会逐步推出更多关于音视频的技术应用,挖掘更多的应用场景,为广大开发者朋友们提供最专业的服务。

你可能感兴趣的:(音视频,视频通话,线上教育,webrtc,ai,人工智能,android,ios)