本篇文章字数4284,阅读时间约12分钟。
智能音箱在国内市场上并不少见,小爱同学、天猫精灵、叮咚叮咚、若琪……品牌信口说来。有人认为它将会占领每个家庭的客厅,成为随应随答的家庭管家;也有人认为除了家庭,它更应该走向办公场所,像电影《Her》中看到的那样,为你整理邮件、整理文件夹,进行数据分析,给你提供更科学的工作建议。
智能语音交互技术运用在电影中如此深入人心且又顺理成章,所有“懒惰”的人都翘首盼着这项技术早日进入千家万户,亿万企业。然而艺术总是美好的,现实中的自然语音技术能为我们做哪些事情,又会给企业办公带来怎样颠覆性的改变呢?本文仅作为引玉之砖,探讨一下音箱与人的交互,期待与广大同仁们碰撞出更激烈的思维火花。
人机交互趋势:效率更高、交互更简单、输入方式更多元
人和社会的进步离不开工具的运用,机器也是工具中的一种。当信息时代的人们都习惯了用鼠标键盘向机器输入指令,并且获得反馈的时候。有没有人思考过,在这之前我们是怎么让机器按照人类的指令行动的?或者有没有进一步思考,未来机器怎么理解人类的指令?
人机交互的研究在个人理解看,就是一门提高人与机器的交流舒适度的学问。让我们穿越到上世纪五六十年代,如果看到界面是像左边这个图,你可能一脸茫然:这怕不是坏掉了吧?没错,这就是那个时代人们和机器的沟通渠道——命令行。
但如果给你右边这样的界面了,你肯定就喜滋滋了,这才是人们熟悉的图形界面嘛!你知道怎么打开应用程序去编辑文档,知道怎么用键盘打字输入,将屏幕放大缩小。喜滋滋的原因是因为这样的操作比上面的命令行简单了太多,没有计算机知识的人也能操作。所以,人机交互的趋势应该是朝着效率更高、交互更简单、输入方式更多元的方向去改变。从命令行界面(CLI)到图形用户界面(GUI),下一个用户界面应该是自然用户界面(NUI)了。
什么是NUI呢?试想一下,早上你跟同事见面的交流方式是怎样的?远望点头微微笑,走近挥手说早安……这就是最自然的行为,运用自己的视觉、听觉、触觉等进行信息交流。如果你用这一套来对付你身边的电脑、手机、电视机、空调,以目前最前沿的技术看,它们仅仅只能在非常有限的场景下,理解你的部分意思。比如你现在能靠面部识别来进入办公楼,但不能在实现站在电脑面前,它就能自动从黑屏进入到桌面。你能通过音箱用声音给自己定个早上7点的闹钟,但不能通过音箱编辑你今天要排版的微信推文。
语音办公,国外做到什么地步了?
之所以还不能做到流畅自然,是因为音箱的表现在稳定性和准确率上还有提升空间。那为什么个人市场上又这么火爆呢?是因为C端用户能够接受音箱给出一些俏皮的、模糊的回答。但B端用户不同,他是希望能更高效地完成工作的,最好音箱一句废话也没有,问什么答什么。在这种精准度的要求下,利用语音来办公还停留在处理一些非关键业务的基础上。
亚马逊在2017年11月发布了Alexa for Business这一开放性平台。第三方应用或软件接入后,可以处理诸如日程提醒、订会议室、找工位、控制办公室设备等事务。Salesforce是一家土生土长的云服务供应商,经过3~5年的收购整合,“进化”出了AI 能力,在自家原有的ERP软件中嵌入了Einstein。在2018年4月份,他们发布了一个demo,可以用google assistant打开salesforce中的报表。在8月份他们又发布了Einstein voice,更加强化了语音交互这个功能;同期还发布了一个根据公司业务定制的voice bot。微软本身也是做办公软件的,2018年1月份,Cortana研发部的VP声明要做办公数字助理,利用好微软系列办公组件dynamics的海量数据,实现语音查看业务数据的功能。
调研发现,主流公司倾向于开发自己的智能语音交互平台,非主流公司倾向于接入大平台的服务,做数字化助理或聊天机器人。最后这个产品是嵌入PC还是移动端亦或是音箱,只是一个形式问题。大多数会选择嵌入在原有的ERP或CRM产品中,音箱目前是作为一个demo展示平台能力的载体,实际应用最多的还是移动App端的语音助手,比如Tact。当然在企业场景下,音箱作为一个独立的产品存在也是有优势的,我们总结了以下三点:
① 远场收音效果好。在十几人开会的地方,你要通过手机查数据,先掏出手机,解锁,然后打开App。如果是音箱呢,它放在离你3米远的会议桌上,你喊一声,它就能给出你要查的数据,而且能清晰地播报出声音。
② 业务专注性。手机是一个相对私人的物品,来自私人订制的干扰也比较多,促销短信、微信消息、知乎微博的推送……但是音箱很纯粹,你在做工作有关的事情时候,并不会被无关的娱乐信息打扰,因此工作集中度会更高。
③ 行为习惯养成。根据Canalys预测,2018年智能音箱的全球出货量将达到1亿台。美国知名互联网统计公司comScore也预测,到2020年,至少会有一半以上的互联网搜索会是语音搜索。说明用户的习惯已经在养成的路上了。而edison一项调研显示,有超过一半的音箱是摆在家庭客厅里面的,摆在其他地方或家庭办公室的不超过5%。不容置疑,如Amazon Alexa 基金的主管 Paul Bernard在融资Tact后所说,“我们看到了在企业中提供语音服务的巨大机会。”
先找准自己的核心场景和优势
那么我们自己做了什么样的努力呢?不是内部人员应该比较少知晓,从今年财务管理新世界开启之后,金蝶研究院成立了AI团队,期望将为智能语音找到一个合适的场景在企业落地。
C端音箱提供的服务是基于消费者在过去十几年中积累的数据,符合日常休闲生活,相对来说专业性较低。如果要音箱提供企业级服务,那必须是基于多年的企业ERP服务经验。这是我们做这个产品的巨大优势。
那么智能语音+ERP能做出什么场景呢?最容易想到的是将C端的查询功能移植到B端,用音箱来查一些核心的、宏观性的业务数据。比如这个月总收款多少?比上个月增加多少?关注的某个产品有没有增加大单?这些如果要打开电脑去查,一定有不少于10次以上的点击,然而可以通过一句话来搞定的时候,是不是会节省很多时间呢?
此外,音箱在C端经常被用到的一个功能是定闹钟,设置提醒。那么办公室的音箱,是不是也可以起到提醒作用?目前的金蝶云产品中是有预警提醒这个功能的,在业务数据或流程发生异常的时候,可以通过向云之家推送消息来提醒,但是这条消息夹杂在繁多的消息中,很容易被忽略或者得不到及时的处理。那么,将重要的信息通过音箱来提醒就可以避免漏掉了。
所以我们将场景聚焦在预警消息和主动查询上,这样还可以形成一个小闭环。即在异常的时候,进入业务查询数据,定位问题。布置给责任人之后,再次查询去确认看有没有完全解决。看到这个场景,音箱的使用目标也就确定了,其实并不是适合白领工人,只适合中高层、有独立办公空间的管理者,当然是在家里用还是在办公室用就看使用者的喜好啦!
产品之路:寻寻觅觅凄凄惨惨戚戚
产品线其实很早就将智能语音做进了移动端,但结合并不深入。而且与移动端相比,在音箱端的交互是没有界面的,不需要动手动眼,交互入口更浅,这也是AI团队希望做出差异化的点。不过,后面在找音箱的合作厂商时,我们是有吃过亏的,这弯路暂且按下不表,反正就是寻寻觅觅,悲剧悲剧。
要求在8月8号发布的产品,而我们6月底还没定下一家音箱供应商。7月初,在各种机缘巧合里应外合之下,我们决定直接用别人的音箱,但是选择了可以提供开放API接口的叮咚音箱,然后在上面定制开发轻应用。最后,我们的产品其实是这样搭起来的:
你会看到人与音箱的交互只是最左边的一小部分,而后面却经过了至少三个系统。这样看起来略微笨重的后台有着巨大的隐患,因为任何一个环节的问题,背锅的总是我们团队。当然,主要是产品经理。后来证明确实如此,8月8号发布之后,用户体验上有诸多问题,我们的音箱表现不佳的原因主要有三点:①音箱溜号、返回超时的时候多,看起来音箱似乎卡住了,在没有任何反馈的情况下,极易引起暴怒情绪;②业务系统反馈值还是有界面的那一套,将一长条的选择列表念出,徒增用户的压力;③缺少异常处理环节,没有设置某个途径将用户从懵逼状态引导到正常的交互状态上来。面对扑面而来的抱怨,我们一方面收集需求、整理bug,将问题定位到对接的各个负责人,一方面赔笑给使用音箱的人:不好意思,我们正在改,正在优化中。对于整个团队来说,这都是一段里外不是人凄凄惨惨的日子。
当然,也是有收获的。在讨论场景以及新需求的价值时,我们研究出了一个价值评估维度,从不可替代性、实用价值、用户价值、市场价值和期待价值5个方面去评估应不应该做某个场景或某个需求。如果价值大于投入,那毋容置疑,是要做的;反之就不必浪费时间了。
也是有客户支持的。实际走访的一个客户给了我们很多建议,上面的核心场景就是根据用户的建议提炼出来的。没有他的证言,就无法推动产品的继续开发,更别提更新迭代了。这也证明了,客户需要才是产品活下去的王道。
也是有技术积累的。核心算法团队将代码的空间资源消耗降低了51%,并实现资源多进程复用。读写时间资源消耗降低97%;泛化准确率从73%提升到94%;误判率从9%降低到小于1%。(这个数据的解释权在我们团队的猫奴小哥哥那里,有质疑的请在留言中找我拿联系方式)
产品的未来与战略紧密相关
每次领导问到产品,都会表达:“一定要有产品思维!一个成功的产品一定要看有没有为核心用户创造有效价值,有没有为目标用户解决客观问题。” 作为一个当局者,我不得不承认,这个“定制版音箱”离成功还有很远的距离。我也不知道这个产品会不会有幸走到成功的那一天,但这个都是集团战略层面的问题了。就目前来看,我想我们是不是应该更集中一些,舍弃掉硬件?
亚马逊先开发了语音助理Alexa,通过Echo获得流量基础,然后开始推广自己的Alexa for business平台。KD本身具有一定的企业用户基础,只需要专注做好AI平台的建设。基于这么多年的企业ERP服务经验,如果能构建一个云端企业级自然语音交互服务平台,今后不仅可以对接叮咚的音箱,还可以对接到其他音箱和移动设备,还可以作为一项服务,提供给其他的企业管理软件。
不过平台的构建是一个耗费人力财力持久力的工作。核心算法工程师需要,整理数据的工程师也需要。据说BATH都有专门的人工智能数据工程师,是为数据打标签的人。正如思必驰的VP初敏在某次公开场合说道:“有多少人工就有多少智能,前期需要准备好数据。”
最后还谈一点点关于小K角色的看法。我们给自己的企业人工智能平台定义为商务的,是在business context 下工作的,那么我们是不是就应该展示一个很严肃、很商务的形象呢?可以看看salesforce的智能助理Einstein。官网上,Einstein的形象是一个非常可爱的卡通小老头。他在野外帐篷边,烤火看星星,多么有情怀。在发布会上,他们用AR做了一个Einstein的形象来跟大家互动,多么有趣。
说了这么多,实际上我想表达,人总是视觉动物,看到产品的第一面,人们就会产生一个初期印象,对产品有一个期待。未来如果要给咱们的企业智能助理起名或者设计形象的时候,到底是应该偏商务还是偏可爱呢?或者再大胆一点,是否应该偏中国风呢?