导语:狼人杀语音视频要差异化十分困难,因为不管是自研还是采用第三方的技术方案, 都还存在一些关键的痛点:噪音抑制、回声消除、低延迟、和多路连麦。
狼人杀,刚刚崛起,就陷入红海竞争。
一切发展的太快,都还来不及思考,APP排行榜上就挤满了同质化的狼人杀产品。
经过2016年直播元年的驱动,语音视频云服务已经相对成熟。因此,狼人杀语音视频入门相对容易,集成第三方的技术方案用就可以了。
然而,狼人杀语音视频要差异化却十分困难,因为不管是自研还是采用第三方的技术方案, 都还存在一些关键的痛点:
.噪音抑制
.回声消除
. 低延迟
.多路连麦
语音视频的技术难度在业内被公认是十分高的,如果能很好地解决这些技术问题,狼人杀就能建立坚固的技术壁垒。在语音连麦的基础之上,再加上视频连麦的能力,那么狼人杀就能构筑安全的护城河,为进一步的业务创新提供有力的技术支撑。
下面我们展开讨论一下狼人杀如何构筑技术壁垒。
噪音抑制(NS, Noise Suppression)
狼人杀最头疼的问题就是背景噪音,没有之一。
拿一个十二人一局的狼人杀游戏为例,每一个用户都会带入一定程度的背景噪音。十二个人的背景噪音叠加在一起,简直是没办法玩了。参加过视频会议的朋友应该是有所体会,如果有一个参会者是在汽车上接入视频会议的,那么这个参会者就要把麦克风关掉,不然这会议就没办法开了。在狼人杀游戏中,这个问题会更加严重,你不能让某个用户把麦克风关掉,你也不能要求用户在没有噪音的环境下加入游戏,用户体验永远是摆在第一位的。
终端设备采集进去的声音可以分为三种:
. 发言人的声音
.发言人周围的声音
. 白噪音
第一种声音是有效的,第二和第三种声音是无效的。第二种声音是无法抑制的,因为系统无法区分这是否是用户有意制造的声音。第三种声音是白噪音,在每一个频段的功率都是均匀的,可以类比为包含了所有颜色的白光,白噪音是可以通过算法来抑制的。
衡量噪音抑制的效果好不好,关键的技术指标有两个:
.信噪比提高的幅度
.语音音质的保真度
一般来说,信噪比不应该低于70dB,高保真音箱的信噪比应达到110dB以上。 噪音抑制的作用是要提高信噪比的同时保持语音音质不失真。考虑到狼人杀的应用场景要进行多人高频率强互动,狼人杀的语音方案要结合了声学心理学模型,信噪比要能够提高20dB以上,同时不损伤语音的音质,才能获得比较好的用户体验。
回声消除(AEC, Acoustic Echo Cancellation)
如果说噪音抑制是狼人杀的基础痛点,那么回声消除就是狼人杀差异化的杀手锏。为什么那么说?狼人杀首先是个游戏平台,然后才是社交平台。作为游戏平台,要在轮流发言的杀人游戏环节解决噪音抑制问题,游戏平台的用户体验才能做好;作为社交平台,要在复盘讨论的社交环节解决回声消除问题,社交平台的用户体验才能差异化。然而,回声消除的技术难度十分高。因此,回声消除是狼人杀从游戏走向社交必须要打的硬仗。解决了,就是社交平台;解决不掉,就只是一款游戏。在资本市场上,游戏和社交产品的估值可是天壤之别的。
回声消除可以分为硬件层次的和软件层次的。一般来说,在硬件层次,硬件会做一些基础的回声消除工作。目前的音频终端硬件主要包括PC(Intel+Windows)、安卓手机、和苹果手机。PC端没有做回声消除;安卓手机对回声消除做得不好,而且效果参出不齐;苹果手机的回声消除做得相对效果比较好。在软件层次,软件要抹平这些硬件平台的区别,确保在不同平台上回声消除的效果都要良好,都要保持一致。
这里只会简单介绍回声消除的原理,有详细学习需要的同学请自行百度之。从麦克风采集到的声音包括用户近端的有效声音加上近端回声(NE, Near Echo)。回声消除的目的就是要把近端回音消除掉。如果没有任何参考信号,要把近端回音消除掉是不可能完成的任务,软件算法无法区分哪些是有效声音信号,哪些是近端回音信号。
软件算法采用远端回声(FE, Far Echo)作为参考信号来消除回声。虽然近端回声和远端回声不完全相同,但是高度相关,可以通过一个函数来表示:NE=f(FE)。这个函数f(x)就是回声路径,表达了远端回声在空气中经过多次反射等环境影响以后如何变成近端回声的。从技术的角度看,回声消除就是要从麦克风采集到的声音中,把FE经过回声路径后变成的NE消除掉,本质上是对回声路径函数进行求解。
回音消除的效果好不好,该如何衡量?有两个指标可以衡量:1)回声有没有消除掉;2)在双讲条件下效果好不好。比较拓扑的说法是,回音消除要么没有消除完全,要么消除过度。如果没有消除完全,就会有回音漏掉;如果消除过度,就会带来失真。
狼人杀的应用场景对回声消除的要求十分的高。在复盘讨论环节,十来个用户同时开着麦克风和扬声器七嘴八舌进行摊牌对讲,十来路的回声,十几个人在抢话。在这种极端的语音环境中,即使在线下进行都有听不清的时候,更何况在线上进行。因此,回声消除是对狼人杀十分有挑战的技术。
低延迟
关于语音视频通讯如何做到低延迟,笔者已经在雷锋网发表过的一篇技术专栏文章中做了详尽的探讨。请参照雷锋网(公众号:雷锋网)的文章,这里就不再展开论述了:
“为了互动直播,如何让直播技术实现低延迟?”
狼人杀语音视频云的系统架构和直播云的系统架构比较接近,可以通过下图来展现。
要降低语音视频通讯的延迟,要从三个方面入手:
.选择最优的传输路径;
.选择最优质的网络资源;
.在各个传输环节做到最优。
语音视频处理和传输的链条比较长,从推流端开始到拉流端总共至少经过九个环节。
一个语音视频通讯系统除了要有实时的系统架构,还要在每个环节上做到最优,每个环节能节省一点点时间,整体节省的时间就会相当可观。
直播的语音视频通讯包括了语音和视频的传输和处理,而狼人杀的语音视频通讯目前大部分以语音为基础,视频作为差异化点。视频码率一般会达到几百兆,音频的码率一般会达到几十兆,两者大概是十倍的差别。
语音视频通讯的延迟要多低才算是好?可以拿一线的直播产品作为标杆,比如说,花椒直播的延迟一般可以达到400毫秒。一般来说,语音视频的延迟低于800毫秒,就可以做连麦互动了;如果能达到400毫秒,那是相当优秀的,可以进行连麦合唱了。
花椒直播在2017年初推出的“花椒 K 歌之王”海选赛就是深度运用语音视频多路连麦技术进行的连麦合唱业务创新。
关于花椒直播“花椒 K 歌之王”海选赛的报道请浏览: “视频直播平台“千播大战”,背后技术“军火商”成决胜关键”
多路语音连麦
在狼人杀的杀人游戏环节,用户需要通过语音进行互动。笔者体验过市面上有代表性的十来款狼人杀产品,发现有的产品允许用户多个人在同一时间发言,有的产品只允许轮到的用户发言。前者的应用场景使用了多路语音连麦,后者的应用场景使用了单向的语音通话。
多路语音连麦是指是双工模式,多个用户可以同时讲话,可以听到所有人讲话。单向的语音通话指的是单工模式,虽然多个用户可以轮流说话,但是每次只有一个用户被允许说话,其它用户处于聆听的模式。多路语音连麦要求延迟极低,一般要达到500毫秒以下才能取得比较好的语音对讲效果。单向语音通话的延迟一般比较大,一般都达到1秒到3秒,甚至更大。这种技术条件下,要进行互动对讲的话,用户体验是比较差的。
不管目前狼人杀的产品形态如何,可以肯定的是多路语音连麦的用户体验是要比单向语音通话体验要优越的。不管狼人杀的产品如何演进,可以肯定的是,整个狼人杀的技术都会向多路语音连麦进行对齐。毕竟,多路语音连麦不但能够支持更多的玩法和业务创新,而且能够让狼人杀从游戏升级为社交变为可能。目前,很多狼人杀产品还停留在单向语音通话的阶段,这不是因为应用场景的需要,而是因为技术条件的限制。
多路语音连麦虽然在狼人杀行业还没有普及,但是在直播行业已经成为标配。直播行业在技术上是比狼人杀行业先走了一步,不管是连麦互动的玩法创新,还是多路音视频连麦,都要比狼人杀行业在技术上有更多的探索和验证。然而,狼人杀的应用场景比直播的应用场景要有更多的互动性。比如说,在直播的应用场景中,一般三个主播连麦互动比较合适,四个就有点嫌多,手机的小屏幕放不下了;然而,在狼人杀的应用场景中,人数最少的六人局就已经是对平民的单边屠杀了,十二人局才稍微比较平衡。
相信随着狼人杀在2017年的蓬勃发展,用户和厂商会共同探索出更多新鲜的玩法。连麦互动已经成为直播行业的标配,多路连麦的产品形态也在不断的尝试中。用户的口味只会提高不会降低,多路语音连麦也将会成为狼人杀行业的标配。
从语音升级到视频
在2017年的年中,多路语音连麦将会成为狼人杀行业的标配。笔者敢于做这样推断的理由有两个:
.可以多路语音视频连麦的云服务已经在2016年中被直播行业验证过,无论是技术还是服务都是被直播行业认可的。
.自行研发多路语音连麦技术,在短期甚至中期都不现实。而对狼人杀产品来说速度就是存活的关键。因此将会采用语音视频云服务的第三方方案迅速进行能力对齐。
多路语音连麦是不是狼人杀的最终产品形态? 还言之过早,至少,语音升级的下一站是视频。笔者如此推断的理由也有两个:
.狼人杀的杀人环节中,用户需要对其它用户进行表情观察,这是进行分析判断的刚需,也可以增加游戏的趣味性。笔者曾试玩过一款前十名的狼人杀产品,轮到发言的用户的视频会全屏显示,当看到他的全屏视频显示的时候,笔者的个人体会就是眼前一亮,游戏就变得更加有社交意味。
.狼人杀的下一站是社交,社交最自然的沟通方式就是语音加视频,全面还原线下面对面的场景。狼人杀社交的第一个突破口就是复盘讨论环节。在复盘讨论环节中,用户不需要表演和假装,语音视频连麦互动聊天将会变成最简单直接的需求。复盘讨论环节的社交对狼人杀厂商来说只是起点,如何把用户的社交互动做起来是他们的手段,如何把用户的关系链沉淀下来才是他们的目的。目前在国外爆发的多人语音视频线上Party产品也许对狼人杀会有更多的启发。不管如何,狼人杀的目的是社交,社交的最终形态就是要尽量还原线下场景。毕竟,看得见听得到的语音视频连麦才是最自然的沟通方式。
狼人杀是一个成熟的游戏,互联网是个开放的市场,这意味着任何好的玩法一经推出都很快被竞品复制,最终狼人杀会陷入同质化的竞争泥沼。这个时候,如果要差异化竞争,就必须要不断对运营和产品升级,而运营和产品升级必须要底层技术的强劲支撑。于是,技术必然会从单向语音通话,到多路音频连麦,然后再到多路语音视频连麦。
2016年直播行业已经为狼人杀催熟了语音视频技术和培育好了语音视频用户,2017年狼人杀行业会加速走完技术升级的历程。能迅速走完技术升级历程的狼人杀厂商将会进入下一轮竞争,比拼社交平台的产品和运营能力,一如现在的直播行业;不能迅速走完技术升级历程的狼人杀厂商就会逐渐退出或者转型。
狼人杀语音视频,入门容易差异化难。困难不仅在于关键的痛点,而且在于速度。慢半拍产品只会被丢入长尾的红尘中,被下一波的浪潮淹没。 更多狼人杀语音视频技术干货陆续奉上。
请长按二维码,关注即构公众号。