2011年,乔布斯在iPhone4s发布会上得意洋洋地展示出了Siri智能语音助理。乔布斯在当时就判定,Siri是人工智能的入口级产品。这款乔布斯的遗作在此后6年并没有太大长进,相反亚马逊的智能音箱Amazon Echo悄然之间占领了市场。
《华尔街日报》在今年6月撰文称,Siri简直提供了一个教科书般的范本:它最初在技术上领先,而且拥有充裕的资金和人才,但却逐渐丧失领先优势。
与此同时,科技圈正在掀起一场智能语音助理热。7月5日阿里和百度两场有关人工智能的发布会宣告——智能音箱以及智能语音助理正在真正走入人们的日常生活。
失落的智能语音助理
7月5日下午阿里人工智能实验室首次公开亮相,推出了一款智能音箱——天猫精灵X1。
这场发布会效果颇佳,和上午的百度AI开发者大会遥相呼应,共同拉动了当日的人工智能概念股。
如此热闹的场面不禁让人感慨智能语音助理在前几年的生不逢时。
多年以后,笔者依然会想起罗永浩的那些小trick:
2013年3月27日晚,老罗在国家会议中心发布了锤子Rom,他引以为傲的语音识别功能因为会场回音居然多次演示失败;
2015年8月25日晚,可能是那场演示的心理阴影还未散去,老罗找来了朱萧木,退而求其次,做了一个单机版语音识别的演示;
2017年5月8日晚,罗永浩不再谈语音助理这件事情,而是如数家珍地搬出闪念胶囊功能,把脑子里那些一闪而过的灵感记录成文字。
坦率来说,老罗每一次得意洋洋的展示都挺拙劣的。因为在笔者看来,语音识别这件事本身就存在很多心理障碍和物理障碍。
比方说,你在公交车上对着自己的手机喊“给陈总打电话”,周围的人会像看怪物一样盯着你;
再比方说,你在公交车上对着自己的手机喊“给陈总打电话”,周边小孩的哭闹声可能会直接让你的手机显示“语音无法识别”;
(聊天机器人并不稀奇,早已出现)
正是因为这一系列主客观原因,2015年亚马逊推出人工智能音响Amazon Echo后的两年,主流科技圈都对此无感。
这个傻大黑粗的音响并不是什么炫技的产品。事实上,语音助理功能也并不稀奇。
智能语音助手这件事情从2011年Siri诞生开始,它就注定成为了一个玩物。它就像很多90后曾经在校园里调戏过的“小黄鸡”机器人一样,只是一个只能把人逗乐半天的聊天机器人。
全球智能音箱的热潮
直到2016年8月,被誉为“互联网女皇”的凯鹏华盈(KPCB)合伙人玛丽·米克(Mary Meeker)在她那份2016年《互联网趋势》(Internet Trends)报告中提到,iPhone的销量在2015年可能已经接近天花板,有趣的是亚马逊的语音助理硬件Echo销量正在大幅增长,现在销量已超过400万台。
(互联网女皇2016年《互联网趋势》报告)
这份报告同时指出,语音正成为计算接口,也是计算机输入最有效率的一种形式,机器对语音识别的正确率从2010年的约70%,提高到2016年的约90%。
(互联网女皇2016年《互联网趋势》报告)
这时,全世界才真正注意到智能音箱这个新事物的潜力所在。
我们可以算一下智能音箱这几年来的上市节点:
2016年5 月17日Google I/O 上,Google Home 诞生;
2017年5月9日,微软 Build 2017上,大与哈曼卡顿联合合作的Invoke 智能音箱诞生;
2017年6月5日,苹果家居智能音箱HomePod诞生,而且按照苹果的计划明年还将推出Siri音箱;
2017年7月5日,阿里人工智能实验室研究成果天猫精灵X1推出。
之所以会以智能音箱切入是有原因的。家庭环境下的wifi网络能够支撑智能语音助手随时在线,家庭环境下的语音干扰也是最少的,私密性也是最好的。除此之外,在家庭环境下,需要助理的服务环境非常多样,比如你想开灯关灯、你想定个外卖、你想网购商品,这些都是在家庭环境中可以实现的。而且最为重要的是这些环节用语音和智能音箱交互,远比手机更便捷。
也就是说,智能语音助理之所以会在家庭室内以智能音箱的形态出现主要是解决了这几个问题:
第一,心理上的障碍;第二,服务场景的多样;第三,比手机更便捷。
因此智能音箱会成为一阵浪潮,在美国家庭被用户解决各式各样的生活问题。因为它天然规避了手机的使用场景,形成了人们日常生活的有益补充。
对话式人工智能的实质
我们真正需要探讨的是,智能音箱它到底是像智能可穿戴设备一样,仅仅只是智能手机的有益补充,还是能够成为未来个人、家庭的服务入口。
因为,如果智能音箱仅仅只是智能手机的补充,那这意味着它的量级永远只是局限数百万台的规模,仅仅被少数人所使用。
不过,目前来看,智能音箱的实质其实并不是音箱甚至不是智能语音助理这么简单,准确定义的话,这实际上是“对话式”人工智能。
在微软Build2016开发者大会上,微软CEO纳德拉首先提出了“Conversations as a Platform”,也就是“对话即平台”的人工智能发展方向。
这个概念在后来也被成为是“对话式人工智能”。
所谓“对话式人工智能”指的是,对话本身就是一个平台,各种知识、信息与服务都运行在“对话”其上,可以形成生态环境的基础平台。人和人工智能之间的对话,即是解决各种问题的一种路径和方式。
如果说的更浅显一些,那就是人们能够通过人和人正常交流的方式,来与机器进行沟通,以此来获取信息和服务。
也就是说,未来人们其实不仅仅是在家里可以用智能语音助理来获取服务,智能语音助理甚至可能无所不在。所以你会发现,阿里人工智能实验室在发布天猫精灵的同时,还公布了配套的研发平台AliGenie开发者平台。这一开发平台主要面向个人内容开发者、应用开发者、智能家居开发者以及硬件生产商等四类开发者。
未来我们可以在汽车、冰箱、电视甚至是家庭的垃圾桶上享受到智能语音助理的服务,随时用语音获取信息。用阿里人工智能实验室负责人浅雪的话来说,“终端方面的合作伙伴包括阿里智能IoT、涂鸦科技以及一些大厂,涉及千万款以上产品、100多个品类。”
这也意味着将来智能语音助理将无所不能、连接一切。
这种交互方式或许令人意外,但是语言本来不就是人诞生以来的交互方式么?
语音是所有动物最早最原始的信息交流方式,这对于使用者来说几乎没有任何的门槛,哪怕是还不识字的孩童。
只是随着信息化时代的来临,键鼠成了我们操纵电脑与他人交流、获取信息服务的交互方式,而随着移动时代的来临,触摸屏又取代键鼠成了新的交互方式。
细细数来,键鼠这种交互方式存在至今不过50年,而触摸屏这种交互方式严格算来也仅仅只有不到20年。
但触摸屏取代键鼠的那一刹那,有多少人表示过惊讶?当乔布斯宣称说其实人类有一个天然的操作工具的时候,我们还认为他可能会推出全键盘手机。然而他说的是全触摸屏手机。所有人都认为,触摸屏手机收发邮件不方便,打字不够快捷。
黑莓时任联席CEO兼创始人Jim Balsillie在2007年2月曾经说过的一句话:(苹果和iPhone)有点像一位试图加入一间已经十分拥挤的屋子的新人,在这里消费者已经有许多许多选择了……但是如果说这将对黑莓产生海啸般的影响,我会觉得有点夸张了。
后来的事情大家都知道,更符合人类直觉的触摸屏取代了全键盘。在智能音箱的身后其实也存在这个交互变革的逻辑。
云计算大数据重塑语音
尽管是回到语音这个交互逻辑上,但本质来看,智能语音助理下的语音和过去的语音交互其实存在着本质的差别。
过去我们用语音调用的实际上是另外一个人的服务。对话和对话之间本质上信息量很少。
实际上,语音交互存在大量问题:
1、场景覆盖的低;
2、缺乏系统可视性;
3、语音无法表现信息层级。
4、语音交互消耗注意力,增加记忆负担。
5、随之带来的交互效率低。
所以,当你在地铁上,别人却在微信上给你发来一条59秒的语音消息时,你会对那个人恨之入骨。
但是随着人工智能和云计算、大数据的到来,人和语音的交互本质上正在发生变化。因为这并非双向语音之间的交互,只需要人发出指令即可。
刘慈欣在《乡村教师》的这段话很形象地点名了未来语音交互的信息量:
“你是想告诉我们,一种没有记忆遗传,相互间用声波进行信息交流,并且是以令人难以置信的每秒1至10比特的速率进行交流的物种,能创造出5B级文明?!而且这种文明是在没有任何外部高级文明培植的情况下自行进化的?!”
刘慈欣这句话的实质是大量的数据的积累,以及远程计算能力的提升。这些提升重塑了语音,解决了一系列的问题:
当语音调用的信息本身是具备可视性、划分层级而且直观易懂甚至缩短大量信息环节的时候。它本质上就是一个更为合理的交互方式。
(随着大数据和云计算技术成熟,语音调用了大量的数据)
如果我们换个意思来理解可能会更形象——古今同样是说一句话,可以调用的能量发生的数量级的差异。举个例子,古人说出“我想听个《霓裳曲》”,实现他就需要一个戏班子。而现在人类说同样的一句话,就只需要调动云端的几MB的音频流。
这种变化实际上是靠大数据积累以及云计算处理来完成的,以云端的处理速度,迅速调用各类服务,将对话式人工智能的效率提到最高。
50多年的弯路之后,人类走过了键盘、鼠标、触摸屏等一系列交互手段,而以智能语音助理为代表的对话式人工智能正在让人类返璞归真。