4月20日,声网Agora宣布对实时合唱技术方案全面升级,帮助国内知名迷你KTV品牌“咪哒”实现国内首个支持多终端、多人合唱、高音质的完整实时合唱解决方案的落地,结束了国内K歌行业长期探索“实时合唱”场景,却一直未能上线的现状。
在介绍声网完整的实时合唱解决方案前,我们先来回顾下目前在线K歌行业常见的两种在线合唱玩法,以及真正的“实时合唱”面临了哪些技术难点?
体验过在线KTV合唱玩法的用户都了解,目前几乎所有的在线合唱都是通过录制合唱与单通合唱两种方式实现,以主唱A、用户B为例:
录制合唱:主唱A根据伴奏演唱——完成后点击上传——用户B选择带有A歌声的伴奏再演唱——录制完成后间接完成合唱。
单通合唱:主唱A发起合唱——伴奏发给主唱A——主唱A的歌声+伴奏发给用户B——用户B加入一起唱。
第二种方案,看似是实时的,其实从体验来讲并非是合唱,其原因在于:用户B与听众可以听到主唱A的歌声,而主唱A听不到B的歌声。此外,主唱A出现问题,用户B就无法继续,这种方案还不支持两人以上合唱。
而我们想要的真正的“实时合唱”应该就像是将线下K歌房的合唱情景照搬到线上一样,双方同时听到伴奏后一起合唱,彼此都能实时听到对方的声音。
实时合唱面临合唱同步、高音质两大技术难点
早在2018年,声网就曾提出实时合唱的技术设想,但由于整体网络基础设施不够成熟等原因一直未能真正集成上线,此后声网针对实时合唱场景进行了长期的技术打磨,并与“咪哒”以及国内多个在线K歌平台、智能电视厂商反复集成测试,最终推出了高成熟度、超低延时、可落地的、完整的实时合唱解决方案。声网在与客户共同打磨的过程中总结了该场景的两个核心技术难点:
01 合唱同步
这里的同步指的是两个用户的歌声与伴奏三者之间的同步。我们先假设唱歌的两位用户都是专业级的,踩不准节奏的问题完全不存在。如上述场景描述,由于伴奏是同时发送给两个用户,那么关键就在于两者的歌声是否能同步。影响合唱同步的主要因素就是延时。
不考虑伴奏的情况下,假设用户A和B之间的端到端延时为100ms。从声音传输流程上来说,会出现以下这种情况:
- A先唱,B听到A的歌声。此时产生100ms延时;
- B在听到A的歌声后开始加入合唱,歌声传到A端。此时又产生100ms延时;那么 A听到B的歌声永远延时200ms;
- 假设在线KTV中200-300ms唱一个字,那么用户在听感上会至少慢半个字,会有错位感。
02 实时合唱的高音质
唱歌的人都有一个共同的心理需求,就是希望别人夸自己唱得好听。音质在合唱场景下就显得尤为重要。而影响实时合唱音质的因素主要包括:音频采样率、码率、延时。
- 采样率:是每秒从连续信号中提取并组成离散信号的采样个数。采样率越高,音频听起来越接近真实声音。
- 码率:它是指经过编码(压缩)后的音频数据每秒钟传输所表示的数据量(比特)。码率越高,意味着每个采样的信息量就越大,对这个采样的描述就越精确,音质越好。
假设网络状态稳定不变,那么采样率越高、码率越高,音质就越好,但是相应单个采样信息量就越大,传输时间可能会相对更长。也就是说,高音质也可能会影响延时。
此外,实时合唱还会面临音频传输过程中产生的延时、与手机端、电视端、KTV端等一系列硬件设备的适配、兼容性的问题,多重技术难点让很多想推出实时合唱玩法的K歌平台、社交平台、电视厂商等很是“头疼”。
声网发布行业首个完整的实时合唱解决方案
针对这些技术难点,声网推出了行业首个完整的实时合唱解决方案,不仅有效解决合唱超低延时、伴奏同步对齐、合唱人数灵活性、高音质保障等一系列问题,声网还提供50ms超低延时耳返、歌词同步、歌唱美声、音浪频谱等一系列功能,形成了一套业内高完整度的实时合唱解决方案。
声网实时合唱方案架构大致如下:
- 主唱端与各个合唱端同时从本地获取BGM,随着伴奏同时开启演唱;
- 通过SD-RTN™传输和调度,主唱与合唱们可以实时听到其他人的歌声,达成合唱。同时观众可以享受到演唱者们“0延时”的合唱效果。
图:声网实时合唱技术方案架构
在声网的实时合唱方案中,围绕超低延时处理、高音质体验、伴奏精准同步、合唱人数灵活等形成了六个维度的核心优势。
实现端到端64ms超低延时
在声网实时合唱解决方案中,主唱和合唱端同时听到伴奏,同时演唱,各方可以实时听到其他演唱者的声音,消除了接唱前产生的延时。合唱延时要解决的问题就是降低各自歌声传输到对方的这段端到端延时了。
针对音频在传输过程中的延时问题,声网在技术打磨的过程中发现在实时合唱场景中延时并不是越低越好,一味的追求更低的延时,可能会“牺牲”音质等其他环节的质量。通过我们长期实践来看,实时合唱的延时达到50ms是完美值,但想要实现50ms需要攻克这几个技术难点:
01 音频在采集端、播放端的延时
设备端上的延时包括采集端的采集、前处理、编码,播放端的接收、解码、后处理过程产生的延时,以及两端在编码后和解码前产生端网络延时。
端上的延时主要与硬件性能、采用的编解码算法、音视频数据量相关,设备端上的延时可达到 30~200ms,甚至更高。
02 网络传输的延时
在实时合唱的场景中,要解决网络不佳、网络抖动,需要在采集设备端、服务器、播放端增设缓冲策略。一旦触发缓冲策略就会产生延时。如果卡顿情况多,延时会慢慢积累。要解决卡顿、积累延时,就需要优化整个网络状况。
声网社交泛娱乐产品负责人王奇表示,“50ms端到端延时是我们一直在追求的目标,而目前声网的实时合唱解决方案已经可以实现64ms端到端延时,背后的核心是声网对音频在设备端的延时、弱网传输、音频引擎消耗的延时等一系列技术难点的优化,在实时合唱场景中,64ms延时已经无限接近50ms的最佳理想状态,在这样的延时情况下,用户的实时合唱体验几乎从线下‘无感知’的搬到线上,场景体验实现了高可用性,让用户真正能实现高稳定性、高音质、超低延时的实时合唱体验。”
高音质歌唱体验+实时美声
在实时合唱中,声网的解决方案还能提供高音质的歌唱体验。声网通过业内领先的语音引擎,实现从低比特率的窄带语音扩展到高质量的立体声音乐,并支持从8kHz(窄带)到 48kHz (全频带)采样,声网还拥有业界领先的 3A 算法,在不损伤音质的情况下有效消除各类噪声。
此外,声网Agora 首创了实时美声功能。在原有低延时、高音质的基础上,针对歌唱场景采用链路式多模组联合算法框架,对人声的音调、音色、韵律、节奏、空间、氛围甚至艺术类型等不同维度进行调整,使歌声更动听、更契合伴奏,同时又能保留歌手声音原有的特点。
支持多人实时合唱
在单通合唱的方案中只能支持两个人,而声网的实时合唱解决方案中每一个合唱端相互独立,互不影响,合唱人数可支持两人以上。同时若是在合唱过程中其中一个端出现问题,也不会影响到其他合唱端和观众端的体验与效果。
伴奏精准同步
为了实现最好实时合唱的效果,让各端可以在各自BGM的伴奏下一同歌唱。我们在主唱发起播放BGM请求后,会让主播端等待一个与合唱端之间的延时,以此实现各方伴奏的精准同步。
50ms超低延时耳返优化
不管是直播唱歌还是在线K歌,低延时的耳返功能对于唱歌体验都有着很关键的作用,可帮助用户通过耳机实时听到麦克风采集到的声音和播放的伴奏,来判断自己的声音是不是走音,这个对延时要求特别高。
对此,Agora SDK提供统一接口的低延时K歌耳返功能,通过与手机厂商的深度技术合作,可为K歌、直播类App提供适配不同手机品牌、不同手机机型的耳返应用,我们将传统耳返100-300ms的延时降低至50ms以内,结合实时合唱整体解决方案,实现超低延时、超低噪声、极致音效的耳返体验,全面提升K歌的体验。
歌词同步+音浪频谱
歌词同步可以实现音频与歌词在播放端同步展示,并且音频与歌词逐字对齐,企业开发者无需在进行额外同步处理。而音浪频谱可以帮助歌唱者及时调整自己的音调,系统也能根据音浪频谱的完成度对歌唱者进行打分。专业的在线K歌应用自身已经具备成熟的歌词同步、音浪频谱等功能,但对于想在已有应用中加入在线KTV功能的创业公司或者开发者而言,声网的实时合唱解决方案自带歌词同步、音浪频谱等功能,将帮助开发者节省开发成本、保证体验。
实时合唱覆盖线上线下 为企业带来多重价值
在线社交实时合唱,用户、营收双增长:1、用户拉新、提升活跃度与留存:实时合唱作为最新的在线KTV玩法,无疑可以作为产品新玩法卖点,带来更多想要体验的新用户。同时,实时合唱的创新玩法解决了传统录制合唱、单通道合唱的痛点,也会激发很多喜欢合唱的老用户积极参与,提升用户活跃度与留存率。2、带来更多营收空间:在线K歌与社交平台也可以基于实时合唱的功能,探索出更多商业价值,提升营收空间。
智能电视K歌合唱,娱乐互动升级:经过与电视厂商的技术打磨,声网的实时合唱解决方案还支持电视端,用户可在家中通过智能电视大屏与好友进行线上的实时合唱。对于电视厂商而言,实时合唱的加入也让智能电视的娱乐互动玩法更丰富。
线下KTV异地合唱,打破空间限制:实时合唱还可以助力线下传统KTV或商场迷你KTV的互通联动,让多地的好友可以在线下不同地点一起K歌合唱,提升消费者K歌娱乐体验,推动线下KTV娱乐创新发展。
“咪哒”技术负责人表示:可落地的实时合唱技术方案此前在行业一直处于空白,声网凭借深厚的技术底蕴以及对创新场景的洞察力,与咪哒一起打磨出了行业首个完整的实时合唱解决方案,低失真,超低延时的技术保障为用户带来最佳的实时音频体验,咪哒在全国线下的迷你KTV中即将率先上线实时合唱的新玩法,实时合唱未来将给线上、线下K歌行业带来新的活力。
Demo开源
目前声网实时合唱iOS端Demo已率先上线,如果您想进一步体验声网实时合唱Demo,点击「阅读原文」留下您的信息,我们将提供实时合唱Demo的下载地址。
在本文中我们分析了实时合唱面临的技术难点,并介绍了声网实时合唱解决方案的架构以及核心技术优势,如果您想进一步了解声网是如何优化音频传输过程中的延时、编解码、丢包、抖动等一系列技术难点,可点击下方的相关阅读,查阅我们此前发布的音频技术系列文章。
相关阅读