阿里云视频云实时字幕技术,助力英雄联盟S10全球总决赛

一年一度的英雄联盟全球总决赛在上海落下帷幕,DWG战胜SN获得英雄联盟S10全球总决赛冠军,LCK时隔三年重回巅峰,恭喜DWG。

file

作为电竞顶流的《英雄联盟》全球总决赛,自9月开幕以来,电竞爱好者聚焦在游戏直播平台,为了更好的为观众提供观赛体验,阿里云视频云与推出实时语音字幕系统,并应用国内某知名游戏直播平台。

这项技术由阿里云视频云技术团队与达摩院语音识别和NLP团队共同研发完成,以实时语音字幕的形式展现在S10赛事中。更确切的说,针对这项游戏直播场景的实时字幕技术,阿里云视频云是第一个成功推出的先行者,据了解,即使在世界范围内,也几乎是实时字幕技术于游戏场景成功尝试的首例。故,这也是首次应用在英雄联盟S10顶级赛事中,开创了游戏直播体验的先河。

在S10直播中,该实时字幕技术的场景重要性在于两点:第一,对一直存在的直播体验问题进行彻底改善,延伸了场景的可能性,例如针对不能直接听赛事的、或吵闹环境导致听不清楚的、或解说人的语言不标准造成理解困难、以及听力有点困难的这几类人群,他们可以通过实时字幕来辅助理解,解决歧义,从而拓展了在线观看的人群。第二,实时字幕可以让视频分发更专业,提升直播平台对场景生产能力的专业性,特别是针对一些电竞的专有术语,可以让入门级的用户能理解其字,由字生义,由义明字,从而提升游戏直播的体验感,引导更多的泛电竞受众。

带有实时语音字幕的某平台S10直播

在游戏直播领域,该技术的输出核心在于,针对特定游戏场景进行特定的语音识别,并实时展示在直播流中,让分发端的观众可以借助字、音、画多维度信息理解视频内容。对于未来的游戏直播行业,它开创了游戏赛事直播的新玩法尝试,让直播实时语音识别的技术帮助大型赛事游戏更好的分发,对整个行业具有更多维的延展性价值。

在该项目的技术方案实践中,最核心的研发环节与攻克难点在于两方面:1.语音识别的准确率;2.字、音、画三者实时且同步,然后合成展示。在这两方面,视频云与达摩院整体协同并分别攻克。达摩院主要解决语音识别的准确率,通过特定游戏场景来训练模型,提高准确率;阿里云视频云提供全链路解决方案,进行客户直播流的接入、直播流的语音分离、调用达摩院的语音识别获取字幕、然后字音画同步、合成展示,最后分发。

技术方案图

对于实时字幕技术,阿里云视频云团队已早有积累,起初,视频云实现的是实时插入字幕的功能,后来才逐步实现语音实时字幕,其与实时插入字幕有一个本质区别,即,实时语音字幕是一个字幕流,同时有一定的时效性,需要实时、字音画同步,且展示的时长机制不一样。

早在游戏直播场景的研发之前,阿里云视频云就曾成功研发全球速卖通(AliExpress)海外电商直播实时字幕项目,AliExpress作为“国际版淘宝”的跨境电商平台,其使用的是阿里云视频云的导播台做实时语音字幕和实时翻译,进行多国多语种字幕展示,也是视频云与达摩院共同打造的世界上第一个多语言电商直播实时翻译系统。

精确地说,当前,S10赛事的实时字幕技术,运用了阿里云视频云导播台的成熟的实时语音字幕方案来提供该功能,S10支持结束后,后续更多的游戏直播场景均可以更广泛地复用这套语音字幕的直播方案,包括优酷、B站、抖音、快手这样的视频平台。

未来在大型电竞赛事直播上,阿里云视频云对实时字幕技术、实时语音技术领域,还有新的技术空间思考:1、需要进一步提升语音识别的准确率;2、在应用情景上还可做实时翻译,确保多国分发;3、实现更低的延时,目前是RTMP延迟[3-5s],实际上可以做到更优质的RTS延迟[1-2s],从而极大提升在线体验。

相较游戏直播、电商直播、或其他直播场景的实时语音字幕, 在技术逻辑的本质上是一致的,均是字幕的同步、合成和展示,但是,不同场景,语音识别的模型完全不同,比如电商有电商的专业术语,游戏有游戏的专业术语,同时还有一些领域俚语,所以,需要进行特定的语音识别模型训练以完成。未来,对实时字幕【支持实时语音字幕的直播】技术的研发,阿里云视频云还有进一步的技术升级规划方向: 一方面,让用户的接入更灵活,字幕模型配置以及字幕的样式展示更方便;另一方面,支持更多的特定场景,提高特定场景的语音识别率,以此复用到更多具化场景的玩法尝试中。

通过阿里云视频云实时字幕技术,更多的圈外人轻松get到S10赛事解说的描述,了解英雄联盟的各种梗,感受到电竞文化的魅力。

阿里云视频云将对更多场景、更多维度进行技术探索,推动新内容与新交互的未来,给大家带来更多的视频云体验。

file

阿里云视频云技术公众号分享视频云行业和技术趋势,打造“新内容”、“新交互”。

你可能感兴趣的:(云计算)