元宇宙|高阶音频处理能力,让声音「声临其境」

元宇宙承载着大家的无限热情和无尽野望,甚至被认为是互联网的终极形态。关注【融云全球互联网通信云】了解更多

跟传统互联网相比,元宇宙的最大区别在于,它让互联网有了空间感。

简而言之,元宇宙让我们的线上生活 3D 化,我们可以在 3D 世界里聚会、办公、看电影、上音乐课……
元宇宙|高阶音频处理能力,让声音「声临其境」_第1张图片
这种 3D 化由两部分塑造,首先是或动漫或写实的虚拟形象,然后是各种高阶音频能力带来的元宇宙空间体验感。这其中的第一层,也就是虚拟人物形象,比起实用性,更多是一种个性表达。
元宇宙|高阶音频处理能力,让声音「声临其境」_第2张图片
第二层则是元宇宙体验的关键,也就是语音互动。

事实上,人们对音频的感知更加明显,这在孪生的元宇宙世界也是一样。在交互过程中,音频承载的信息量更大,留存的记忆更久。所以,我们要在元宇宙世界里,通过音频处理,攻克音频数据传输、播放等技术难点,让声音做到“声临其境”

比如将 AI 与音频技术相结合,处理音频降噪、回声消除和音频增益等 3A 技术,以及音频的双声道、混音、混响等高阶能力。在元宇宙应用里处理好这些音频能力,就可以为用户打造在元宇宙中开派对、唱 K 的 3D 世界。

而这些组件,融云已经全部搭建好,只需简单的接口调用即可搭建起自己的 App。
元宇宙|高阶音频处理能力,让声音「声临其境」_第3张图片
在元宇宙里开演唱会本质上是把语聊房放在了一个 3D 场景中。融云基于房间模型维护了 RTC 通道和 IM 通道,App 中的管理员角色可以一键创建房间。

  • 通过 RTC 通道,App 可以实现音视频数据的分发。
  • 配合 IM 通道,App 当前页面所处业务房间可以做到各种状态信息的维护与多端实时同步。

元宇宙|高阶音频处理能力,让声音「声临其境」_第4张图片
(元宇宙语聊房)


元宇宙娱乐场景的 3A 算法

“声临其境”首先需要我们消灭所有影响临场感的因素,包括噪声、回声、杂音等,然后根据所处的真实或虚拟的环境,重塑其中的声音和空间感。融云经过海量客户真实场景打磨出一套最佳解决方案,形成标准化音频处理模块。

其中,音频相关的 3A 处理是构建未来元宇宙世界的重要一环。

①ANS(抑制背景噪声)可以将录制者周围的背景噪音全部过滤掉。
②AEC(回声消除)用于避免娱乐场景主播“二重唱”的问题。

为了提升实时音乐场景的体验,融云在音乐 AEC 方向不断探索。比如,在主播使用手机麦克风和扬声器的情况下,回声消除程度不能太大,否则会影响麦克风采集到的主播说话声。

这就需要达到的一个微妙的平衡,既要让音乐高音质地发布,又要保证麦克风采集到的主播人声不会因为回声消除而被抑制太多。

③AGC(自动增益),需要对麦克风采集到的主播声音和音乐的声音根据原始采集设置的音量分别进行增益控制,不能让音乐声过大而遮盖住人声,也不能让音乐声太小而达不到烘托气氛的效果。
元宇宙|高阶音频处理能力,让声音「声临其境」_第5张图片
(音频处理流程图)


混音、混响及音效打造现场感

融云提供了一整套混音方案,无论是元宇宙 KTV 场景,还是聚会场景都可以把用户想播放的背景音乐和麦克风采集的人声混为一道流发送给远端。

这样,既可以节省终端订阅多个音频带来的费用消耗,也保证了主播唱的歌词和伴奏是实时对齐的。

为了活跃元宇宙 KTV 的气氛,融云提供了 3D 音效播放模块,支持多种音效同时播放,最大限度地还原用户在现实生活中对声场的感受。

借助融云 RTC SDK 内置的空间音效,用户在虚拟世界中穿梭不仅能通过视觉感受 3D 世界的奇幻,更能通过听觉感知远方的鸟鸣、机车的呼啸而过,获得身临其境虚实结合的现场感。

此外,KTV 场景的主唱还可以使用融云提供的混响功能塑造空间感,让表演更加生动,配合 3D 场所的视觉呈现使听众有更强烈的沉浸式体验。


变声技术给你的声音“捏个脸”

现阶段,虚拟形象已经是元宇宙的基础配置。玩家在进入元宇宙世界前,通过捏脸变装、表情捕捉等方式创作专属自己的虚拟形象,已经是元宇宙应用最常见的进入方式。

在声音侧,也需要做相应的“捏脸”处理。融云提供了“绿巨人”、“男孩”、“女孩”等内置音效,也支持用户在音频前处理阶段接入音频编辑工具对数据做个性化处理。

此外,融云通过对大量机型适配经验的总结沉淀,提供一整套手机端音视频编解码管理方案。面对出海场景用户终端多样复杂的情况,融云可以准确定位手机端播放异常等问题,为快速识别和解决影响用户体验的问题提供基础。

元宇宙是一个体验为王的时代。融云致力于帮助开发者一站式解决音视频通信在 3D 化线上空间的各类疑难杂症,让开发者的业务实现更快速和贴合市场所需。

你可能感兴趣的:(运维元宇宙音频处理)