当AI的热潮开始上涨,许多头部玩家竞相追逐,从无人驾驶、智能家居、5G等各个方面入手,而有一些玩家则将目光投注在智能语音领域上,试想当AI入驻语音行业,又会碰撞出怎样火花。
基于此, 成立于2018年的kikaGO,主力开发语音AI软件、降噪算法以及其适配的硬件平台与模块,配合智能手机、个人计算机、平板电脑或IoT装置使用,并结合其独创的语音AI技术专利、降噪方案、声学结构工艺、音频信号传输策略,力图优化AI语音配件与模块解决方案,让普通的个人计算机、智能手机、平板电脑或IoT装置获得强大的降噪或语音优化能力,高质量地实现语音助理、音视频会议、语音转写与翻译、手机直播等应用。
此次,在2019(夏季)中国智能音频产业高峰论坛上,来自kikaGO的周超先生发表了关于《语音AI技术在智能设备附件上的部署与应用》的演讲。
以下为演讲实录,内容经我爱音频网(www.audio.com)整理和编辑。
AI技术的落地方式
这张图业内很多同仁都看过,这里面凝聚了很多智能语音行业的从业伙伴的汗水,在去年有百分之一万二千的增长率,很多厂商在这里面已经挣到钱了。
首先从这张图上增长率看,目前行业发展趋缓。我们在这个趋缓的量级和语音AI技术所应有的深度,包括媒体、行业、电商助推来讲,我认为目前还是不成比例的。
我们现在确实把智能音频产品量推到了千万级,相对于整个消费人还是比较深的渗透率。
美国是智能应用先发的市场,对整个的全球市场有一定的预示性,令人担忧的是,日活用户DAU的占比从2018年到2019年出现了明显的下滑,也就是说,有很多终端用户购买了终端用户,渠道推广,大家对新技术的好奇心,大家购买了产品,但是在实际场景中使用频次反而越来越低了,买了以后并没有反复用语音的功能,说明了一个什么问题?
这个产品推开了,是否进入到日常人生活中的必不可少的工具,可能这个中间还有一定的差距。
我们都在围绕智能音箱、语音AI领域做应用,让我们从一个更宏观的角度思考一个问题,智能音箱这个产品形态是否是一个最合适或者唯一合适的语音AI技术的落地方式?我认为这一点可以探讨。
语音AI是如何发展的?
1、AI为什么会爆发?
源于两个方面大的技术进步,一个是阵列麦克风远场拾音,另外一个算力大的爆发,这是任何AI成功依赖于两点。先通过阵列麦进行远场拾音降噪,CPU做结算,然后联网做处理。
现在市面上80%、90%的产品完全一样的硬件架构,因为这个产品思路非常直线,一定程度上教育市场、教育用户,让大家知道把这几个链条串起来以后做什么样非常有趣的应用,这个作为先发式的产品非常成功,但是在这个上面的成功不足以解释这个产品现在可以达到千万量级,它还是一个非常成功的给成人玩高科技玩具,有几个特点新颖、易用和有趣,单独的凸显了予以交互模式。
以前人机交互,哑巴的交互方式,不能用语言交流,只能打键盘按鼠标,大家做了几十年的哑巴以后对语音交互非常饥渴,把语音模式突出出来,信息的收发全部用语音方式实现,这样确实很新颖很易用。
如果从工具角度审视智能音箱,发现新颖易用交互模式很单态,从工具角度就不人们适用,第一要改变人们的习惯,只剩下语音交互模式,问也要用语音,及回答也必须要用语音,这种单一交互方式不一定符合我们人作为要完成需求的时候所希望的方式。
2、语音AI模式的探索
大家经常遇到一个问题,当我们跟ALEXA,问到的东西相当于广播给在场的人听到,不是一个很合适的事情。
作为工具,应该具有一个多模交互的共,带屏智能音箱也是受惠于单一交互,它要尽量符合我们普通人的消费习惯,而不是一两个高科技新产品爱好者的新奇性。
性价比,它的爆发点的前提价格达到29美金或者99人民币的水平,把整个硬件架构搭完,99块会有多少应用空间不言而喻。
现在这个模式能够成功,有渠道,像亚马逊、天猫投入资源助推这个事情。我们长期考虑这个问题的话,如果这个产品性价比很重的情况下,又不能无缝地切入普通人的生活,补贴退潮之后是否能够长久存在于我们普通人生活中的一个长期化的产品,这点是可以讨论。
3、企业的语音AI之路
一个企业在链条要有合适的定位,产业链服务更大平台也要有合适的地位,语音更多的是Feature,或者Ability,单纯的语音不能做更多的事情,我们既然只是一个Feature,kikaGo不是按照智能音箱的思路,与绕语音AI的能力做一款产品?不一定是一个正确的思路。
我们既然是一个Feature,去找我的宿主设备,寄生跟宿主之间形成良性的互动,互相之间一种关系。
语音AI需要供电,小型化的智能音箱所需要单独地供电成为推广的大的痛点,大家并没有那么多空余的充电给它,最好设备有富余的算力,这个不难找,现在普遍智能设备的算力富余,提供网络接入,可以借用已有设备端口省一大笔费用,除了语音,多模态可以良性补充,普通人希望交互便利,不管交互是不是很新颖,不是纯语音,我不关心,我关心在交互过程中用最便利的方式让机器懂我,机器人反回的信息让我尽快了解到相应的信息。
如果宿主设备本身提供相应丰富的交互模式,我们语音作为它的补充最理想第一个交互方式。
还有一点做音频降噪同仁应该比较清楚我们需要一个稳定的环境,不怕造影强,就把它不稳态。
如果这个设备能够给我创造一个至少稳定的周围小环境,对于我降噪算法的部署有很好的出发点。我们认为宿主设备要这些条件寻找。
从我们kikaGO来讲,我们集中能力放在已有智能设备上,放在他们的附件上,已经存在的人机交互都可以借用,我们只需要在附件强化语音识别能力,实现最低成本的落地方式。
语音AI产品与用户交互
1、整个语音AI产品如何深入大众的日常生活?
现在这个科技已经高度发达,大家想到什么程度都能做出来情况下,什么产品能够在非常残酷市场竞争中最后生存下来,只有两种模式,要么是与人融合,一种随身设备,要么与场景结合成为某些场景固定设备。
随身设备是一个全世界最大蛋糕,大家看见的都是几个亿的用量都会往里杀,最终结果最惨烈的红海。
上一个时代在办公设备的这种残酷竞争中最后活下来一种设备形式也就是个人PC,剩下的所有全部被PC干掉了,因为PC通过多态性强功能实现百分之百渗透率之后,在我们现在时代唯一的王者就是智能手机。
以前四件事不能忘记,现在钱包已经被手机吸收掉了,相信很多人出门不带钱包,钥匙和身份证已经也被手机吸收,在脑机出现之前手机是唯一的王者,可能还剩两个幸存,笔记本和PAD。我们作为一个产品策略来讲,我们是不是要有一个单独的设备挤这个非常小的舞台?
2、语音AI产品与用户交互的方式不是非智能音箱莫属
我觉得这并不是一个很明智的策略,一定不要跟PC打架,要跟PC做朋友。
智能音箱这种形式有一个比较隐性的抵触,要求使用者在手机在生活场景中搬运一个智能音箱,而这一点在相当多用户那里是抵触,不抵触买一个智能音箱在,在使用日常过程中TUCH在手机生态,这三个幸存者都是宿主设备非常好的一个点,提供富余算力,提供供电,提供网络接入,提供多态交互。
做手机附件来讲,做音频附件,第一个给一个阵列麦,远场的能力。第二附件的ID把尽量周围环境生产环境固化下来,在手机下方USB插件,这个轴线跟屏幕轴线平行,借用手机的屏幕固化了信号来源,kikaGo用很低的算力可以实现非常好的降噪功能。打美国航母并不难,找到它非常难。
降噪来讲把特定特征的噪音消除掉并不难,关键在于定位,如果从频谱特征来讲,抓到这个声源,通过IP上的设备,借助宿主上设备抓到声源。
kikaGo这个产品发布以后获得市场很大的肯定,在解决一个开车时候语音操控,这个场景大家做的产品形态已经非常多,这种场景最无缝切入当前的手机导航的使用模式,因为手机本身就要充电,我们把阵列固定到充电线上,用户无须增加额外设备,不需要再调优,kikaGo对这个附件结构特征进行降噪和语音调优,不用识别A手机、B手机、C手机。
另外更有可为的思路是跟场景融合,我们发现日常生活我们深入思考以后有大量的场景提供电、富余算力、网络接入、交互界面、稳定环境,这里简单的列了一些大体做的产品门类,大家可以深挖思考。
墙面的强插看起来很不智能化东西有时候一个很好的载入的宿主,上面有供电,如果作为Wi-Fi热点的插板有富余算法和网络接入,比其他的设备上的网络接入更加稳定,这种场景真的非常的多。
总而言之,我们觉得智能音箱也许不是和语音AI技术最终十年二十年长期存留在我们每个人生活中的一个产品形式,这个技术是好的,产业链条是没有问题,所串接近一的内一和是,这个形式是否是唯一的合适的形式值得我们大家每个人思考的。
kikaGO的语音AI之路
kikaGo公司提供了一个很简单的开发平台,让第三方的硬件厂商、APP厂商都可以加入进来,提供了很廉价硬件投入方式,把整个的链条串起来,把硬件的成本省的差不多,阵列麦克风的本身费用。如果这个桥接做起来大家可以互助共赢的效果。