在近期揭榜的2021国际音频检索评测大赛(MIREX)上,网易数帆易智语音团队携手网易云音乐音视频实验室,凭借生产级AI技术创新能力,在歌词识别和歌单识别两个赛道大幅打破世界纪录夺得冠军。
MIREX是国际音频检索领域的顶尖赛事,采用参赛者提交模型、验证集公开、测试集不公开的方式,为音频信息检索及音乐信号处理领域中的各种前沿技术提供公正、可信的评估,自2005年启动以来吸引了世界知名大学、研究机构和科技公司企业的广泛参与。领域内知名的团队,如新加坡国立大学、伦敦大学玛丽皇后学院等都曾参加过此项赛事。
大幅刷新世界纪录
MIREX 2021中,网易数帆携手云音乐团队参加了Automatic Lyrics Transcription(歌词识别)和Set List Identification(歌单识别)两个赛道的比赛,后者任务为针对给定演唱会现场音频和歌手的studio歌曲版本,按时间顺序输出演唱会中演唱的歌曲曲目(task1),以及每首曲目的开始和结束时间(task2)。
在歌词识别赛道,网易实现了WER(词错误率,Word Error Rate)从37.02(2020年最佳成绩)到11.45的突破。于实验而言,这是2倍以上的提升,但对于产品化,这是不可用和可用的巨大区别。
歌单识别赛道则由于领域技术沉寂曾缺席MIREX数年,于本届恢复并成了网易表演的舞台。如下表所示,网易提交模型的各项指标较往年均有显著提升,单项指标的差别甚至超过了12倍。
其中,ED为task1中预测出的song序列和ground truth的编辑距离,数值越小越好;sBD和eBD分别为task2中预测出的song的开始时间和结束时间的评价误差,单位秒,也是越小越好。
多项创新提升模型抗干扰能力
网易数帆易智团队参赛人员介绍,这项赛事的任务与语音识别不同,歌词识别赛道的数据集来自国外K歌APP,这意味着训练数据有更嘈杂的背景,更多的噪音干扰,更低质量的歌词音频,如漏唱、错唱、即兴对白/独白等——即便唱词与原始词曲高度吻合,任务复杂度与普通语音识别依然不可同日而语,因为背景音乐仍然存在,而且同样的词语在不同曲风不同节奏下往往呈现出不同的音高、音调和语速。如此复杂的场景,对模型训练带来了巨大的挑战,模型必须具备很强的针对背景音乐及噪音的抗干扰能力,才能正确识别歌词。
针对歌词识别,网易在数据和模型方面做了大量针对性的优化,基于语音识别技术方案进行细化,把框架用到极致,采用预训练语言模型的思想提升抗干扰能力,并分阶段进行调优,以提升模型精度,从而大幅刷新世界纪录。
具体而言,在建模时候,先带伴奏的音频信息直接输入模型,尽可能保持原始信息,再把歌声单独带入模型。针对背景音乐引入多种噪声的label建模,同时借鉴流行的预训练语言模型思想,通过Mask训练方法来训练声学模型,提升模型的上下文感知能力和抗干扰能力。针对歌声则采用分阶段训练调优,把说话模型当做种子模型,在此基础上使用歌词分阶段进行模型调优。
针对K歌数据中歌词可能存在的瑕疵,或多余的信息,如词/曲作者信息对歌词而言是多余的,这些内容对模型训练也是一种干扰,需要有一种方法能将其滤除。为此网易数帆开发了一套自动歌词数据筛选的流程和方法,依靠预训练模型的置信度对数据过滤筛选。这也是一个迭代的过程,模型精度在不断的筛选中得到提升。
针对歌单识别,业界传统的方案是基于信号处理技术,然而该技术迟迟没有很大的新突破,这也是该赛道沉寂已久的原因。网易此次将歌词识别+文本检索的方案引入这一领域,从而取得了飞跃式的提升。
基于音乐业务的生产级创新
大幅破纪录并不是全部的结果,网易数帆这套技术方案还具有良好的可扩展能力,在训练数据充足情况下(比赛所用数据集不是很大)会有更好的表现,也可以非常方便地扩展到日韩歌词/歌单领域。事实上,这些技术已经在网易云音乐业务落地应用。换言之,这是工业界生产级的技术突破,而非实验室的AI学术研究。
多年来,网易云音乐在业务发展中,始终致力于借助互联网和数字化技术推动中国音乐产业多元化繁荣。平台自2016年末上线“网易音乐人”产品服务,到2021年年底聚集了超过40万原创音乐人。网易云音乐不断改善产品功能和体验,拓展音乐的价值,如社区视频歌曲检索、look直播等,2020年就在线上系统使用了歌词识别的功能。
《华语乐坛趋势报告(2022)》
在此过程中,网易云音乐也遇到了上述MIREX赛道类似的挑战,如不同原创音乐人对同一首歌的演绎,音色、节奏会有差别,甚至歌词也有变动,当然中英文混杂也是常见的状况,这些都是干扰。因此,网易云音乐与网易数帆易智团队合作,通过这套技术创新来提升产品体验。
网易云音乐音视频实验室专家介绍,参赛方案中所包含的技术在云音乐落地主要收益在于节省人力成本和提升业务效果。
节省人力成本方面,音乐曲库的需求之一是将逐行歌词升级为逐字歌词(如卡拉OK效果) ,技术实现是给每个字加上一个时间戳,通过歌词识别技术创新,结合旋律提取做到歌词和旋律边界对齐,节省了大量的人力。另一个场景是曲库安全,网易云音乐基于歌词识别技术开发的敏感歌词返检系统,从而低成本、自动化地将敏感词检测出来。
提升业务效果方面,一个典型场景是哼唱识别,网易云音乐通过旋律匹配+歌词识别的技术方案,有效提升了识别效果,目前已经通过20%流量灰度上线。其次是将歌单识别技术方案用于mlog的视频识曲,结合音频指纹、翻唱识别形成统一的识曲方案,针对网易云音乐用户发布在mlog的视频,该方案可以有效识别视频中所唱的歌曲,并匹配曲库中对应的歌曲,从而实现该视频和曲库里的歌曲关联,进而相互引流。此外还有直播应用,基于该技术的look直播音频分析,可以准确识别出主播所唱的歌曲。
共建模式加速AI落地
MIREX技术成果的成功应用,再次验证了网易内部通行的跨BU共建模式的成功,共创共建使得两个团队能够实现优势互补扬长避短,并且研发方向更加贴近业务需求,加速落地。
以上述mlog视频识曲应用为例,方案中所采用的音频指纹由网易云音乐音视频实验室研发,也是MIREX2020上突破过去6年历史纪录的技术,其特点是速度快、抗噪性强,但无法识别不同版本——而这是网易数帆易智团队研发的歌词识别技术的强项,只要歌词一致就能识别不同版本。
当然,单靠歌词识别也解决不了无歌词、各种外语的场景,这就需要网易云音乐翻唱识别技术的加入,后者能够处理无歌词、外语,但抗噪性差,刚好形成互补。
哼唱识别的案例中,网易云音乐哼唱识别技术能处理用户哼唱甚至吹口哨,然而现实是很多时候用户能唱出歌词,只是跑调了,此时引入歌词识别就能得到更好的效果。
综上,这4种各有所长的识曲技术经过整合形成综合方案,能够大大拓展业务应用场景并取得良好的效果。
共创共建还具有更令人期待的未来,两个团队参赛人员预测,本次大赛中的技术将能够在安全检测、音乐版权检测、音乐内容提供商、传媒行业探索等场景大放异彩。