前言
音频技术发展到今天,经历了从模拟音频到数字音频到历程。国际音频工程师协会创建于 1948 年,中国数字音频技术起步相对较晚,长期被国外组织和公司垄断。随着中国的不断发展、科技日益进步,经过近三十年的努力,我们在语音识别重建、音效声场重现、数字音频通信等方面,积累了很多自己的音频技术专家和学者,已经逐步缩小和西方的技术差距。
为了更好的促进行业交流,壮大音频领域的中国力量,普及大众对音频技术的理解和认知,我们推出了面向音频领域专家的「一期一会」活动,希望能为更多的音频技术从业者打造一个充分交流的平台,我们欣喜地看到大家在活动中碰撞出许多有意义、有价值的思想火花,愿「一期一会」能承载和点燃更多音频技术人的梦想。
—— 声网技术合伙人、音频编解码专家
@高泽华
本文基于「一期一会 • 音频工程师专场」中讨论内容整理,观点仅供参考。
部分观点前瞻:
● 在音频领域,AI 解决普遍问题,算法解决个例问题,因此 AI 和传统算法的结合是必然的。
● “热点”的问题可能对于开发者而言意义不大,多数组织架构的利益分配机制对一线开发者往往不利。
● 空间音频面临的一个现实问题是,并没有足够多的音源素材可应用,市场上占有率更多的设备和业务场景并不具备相应的条件。
● 从技术角度看,VoIP 有很多事可以做,但从应用场景来看,市场需求才是决定性因素。
1、音频技术发展进入平台期
音频技术发展已经到了一个平台期阶段。神经网络的热潮开始消退,在音频降噪、回声消除、丢包补偿等方面的应用都有所突破,通道技术的改进接近瓶颈,编解码和麦克风阵列的应用尚处于尝试阶段。
长远来看,业务需求的积累和音频技术的迭代一直都在驱动着领域的发展,现在面临的问题是技术层面需要有新的突破。在具体的场景下,例如虚拟会议、空间音频、降噪、车载等等场景对沉浸式体验的追求越来越明显,这都需要工匠精神去打磨。
2、主动降噪在技术侧的新突破
随着 TWS 蓝牙耳机市场的快速增长,主动降噪再次引起人们的关注。在深度学习的加持下,主动降噪(ANC)的应用范围从智能手机、蓝牙耳机等单点降噪向 PC、智能汽车、智能家居等市场扩展。但声源分离(声纹识别)与还原(声场重建)、多路音频的网络传输、算法的收敛等仍是一些值得关注的问题。
无论是智能车机或智能家具抑或元宇宙,随着应用场景的不断扩展,工程师对于主动降噪关注的技术方向应该侧重软件与硬件的结合。终端设备算力的不断提高和云服务的日益普及也必然会为主动降噪技术提供更大的可施展空间;在越来越多的场景中,多个端侧设备的协同调度(回声抑制)正在成为新的课题。
3、市场需求决定了 VoIP 的未来
未来 VoIP 会发展到什么程度?移动通信已经从 2G 发展到 5G 时代,VoIP 也从最初的 8k 提升到 44k 的高清通话水平。高音质也带来了新挑战,通话的稳定性是第一位的,网络的切换和抖动对 VoIP 的影响也很大;在 1v1 和 N v N 的通话场景中要解决的问题也不尽相同。尽管降噪、去回声这 2 大应用课题在学界有了一些进展,但硬件的复杂性也增大在工业界实际应用的难度。
VoIP 已经变得更场景化、多设备化,并且场景与设备的融合度更高,追求沉浸式体验。因此在前端处理(算力)、网络、设备的多样性和复杂性方面存在诸多制约因素。产业界考虑的是稳定性。从技术角度看,VoIP 有很多事可以做,但从应用场景来看,市场需求才是决定性因素。
4、阵列技术的应用迎来新场景
智能设备的发展造成未来很多单声道的场景都会被多声道取代,因此阵列技术的应用场景会变得越来越多。但如何选取传声器或扬声器的音频信号、怎么评估阵列的效果以及声场重建等方面仍面临着挑战(如多区域、指向性、时域滤波等)。除了实验室环境,国内外的研究机构已经在户外音乐会、音乐广场等领域的应用取得进展。
5、空间音频在 RTC 领域大有可为
自从苹果推出空间音频后迅速成行业关注的焦点,应用场景也从耳机设备延伸到外放音响。据了解,苹果在空间音频实现方面采用的是杜比的方案。Facebook、微软最近也都在空间音频方面有所研究,公开的 Demo 显示主要应用在会议场景。
由于会议场景太过复杂,在做空间音频时到底要先做分离还是先做声道,目前业界尚没有统一的实现方案;在人 & 声分离方面,选择哪一路音频(向用户播放给出来)主要取决于上层应用。但考虑到更多的应用场景,工程师须知,空间音频要解决的问题既包括现实场景的模拟与对抗、也包括虚拟场景的模拟与对抗。
目前空间音频的应用还面临一个更为现实的问题是,并没有足够多的音源素材可应用,市场上占有率更多的设备和业务场景并不具备相应的条件,尤其是海量的中低端设备和短视频应用。
另外,空间音频在模拟现实的过程中还有一些信息丢失,对于空间音频的质量评价也缺乏统一的标准,目前空间音频的体验(空间感)或者说音质并不理想。由于空间音频的场景较多,业内公司提出了一些不同的方案,这可能会影响它的进一步应用。
6、AI 和传统算法必然会走向结合
AI 在音频前处理算法的热潮持续到 2018 年前后时,发现音频信号处理的方法在服务具体行业时遭遇了瓶颈(各类播放端的算力和能耗问题),因此更多细分行业的解决方案开始返回到之前传统的音频信号处理技术。在音频领域,AI 解决普遍问题,算法解决个例问题,因此 AI 和传统算法的结合是必然的。
7、软硬技术结合的厂商会更具优势
3A 在传统场景的应用非常成熟,在细分场景下还有许多要提高的地方。以会议场景为例,目前可改进的地方非常多(例如 AEC 的收敛问题、全双工的体验问题等),怎么在细节上提升用户体验才是重点。多人会议时,多设备、多麦克风阵列的问题不能单纯靠软件和算法去改进,硬件设备本身从底层提供支持可以补充软件能力的不足,从而达到事半功倍的效果,未来软硬结合的解决思路将占具优势。
8、工程师应正视元宇宙的乱象与机会
现阶段元宇宙市场的乱象中,的确存在割韭菜的行为,但不可否认硬件设备的升级也带来了新的场景和机会。以沉浸式音频为例,企业混和办公场景下,目前商用的方案造价不菲且对布署环境(例如会议室的规格和声学设计)有一定的要求,可落地的形态和方案仍需继续寻找突破点。目前看,元宇宙实现的侧重点是虚拟的音频沉浸体验,元宇宙/空间音频如果只是为了娱乐,是不是应该在内容制作方面多发力?
9、音频技术的下一个“热点”在哪里?
抛开商业行为,“热点”的问题可能对于开发者而言意义不大,多数组织架构的利益分配机制对一线开发者往往不利。
从技术角度看,VR 和 AI 等新技术已经火过不止一次,这代表有些热点技术存在一定的周期性,值得长期关注。例如,AI 在语音方面还有很大的发展空间,目前高校的学生受大厂影响也比较愿意学,但传统 DSP(数字音频处理器)方向就鲜有人问津;再比如,蓝牙耳机在助听和辅听市场的发展已初现端倪。
其他方面,当前大火的元宇宙对视频的关注明显多于音频,这显然不符合“两条腿”走路的常识。在更多细分领域,把声音的(语音识别、场景识别、音源识别)前端感知能力当作传感器,结合后端逻辑实现物联网、工农业生产、医疗等场景下的定位、识别、检测等自动化管理,都有很广泛的应用前景。