智能音箱初体验和语音交互深思考

方糖

在对智能音箱和智能手表进行初步分析后，感觉有必要亲身体验一下产品，就入手了阿里的天猫精灵（方糖），从影响购买决策的层面说，我最看重的还是价格，我想对于想尝试体验的用户来说，花出多几倍的价钱却没有多出太多的功能扩展是不值得的

在经过了近十天的初步体验后，对人机语音交互的用户体验有了更多的思考

之前也提到过，智能音箱相对更适合也更通用的场景主要还是家居和办公室，所以在使用时，也尽量在这两种场景中进行沉浸式体验（毕竟我是在学校寝室使用的）

一个产品是否体验好，最直观就是看用户在使用第一次时的感受，有没有再次使用的欲望，在使用第五次时的感受，有没有再继续下去使用的欲望，在使用十次时的感受，是否已经感觉习惯使用并有欲望长期用它解决问题

在我第一次开始使用时有几个地方用起来不是很舒服，虽然之前经过调查也知道，但是经过亲身体验更加深了看法

需要插电源才能使用，也就局限了使用的范围

每次都需要手机先连接网络，音箱才可以识别连接

经过若干次唤醒给我留下了两个感受，一个是频繁的变换功能对自己来说是个折磨，因为每次都要说唤醒词才能发布指令

一个是平时说话的语速对音箱来说有一些难以企及，我尽可能自然的说“天猫精灵”，而不是刻意的一字一眼的，十次只能识别三四次，在旁边有噪声，一边走路一边唤醒，发音不标准，或者距离达到三米，都很难自然的达到识别效果，有时候重复的都怀疑人生，基本上重复三次还不能识别就会大大减少耐心了

接下来说在随便尝试了几个功能后的整体体验

有的指令，比如播放音乐，不能随意的表达，音箱会提示“请说：XXX”，一定要按规定的方式说

会分不清名词解释和操作指令，比如我让它给我查一下北京有什么美食，它会去介绍北京（大致是这个意思，具体的那个操作忘记了）

由于能力上的局限性，很多指令不能完成，让用户产生挫败感，但是每次失败后都要重新唤醒会加重这种挫败感，而且在不能满足用户需求指令时总是回复重复的内容，一是让用户感觉烦躁，而且用户也不明确究竟是表达中的那一部分没能让机器理解

讲笑话等用语音合成的方式输出，因为时间较长，听起来会感觉生硬

当机器因为用户输入的某条指令错误关掉后，再次唤醒，接着上边的问题询问，不能衔接上，不识别

总之，如果在第一次因为好奇尝试使用很多功能，会感觉失望大于惊喜

这与产品的交互效果，识别效果有关，也与用户总也满足不了的好奇心有关，而且失望一次就会容易放大

但是在第一次的使用中也有一些意料之外的惊喜

1，它的口音会根据你发音的情况随之改变，比如我这东北话十级的高手，在经过了几次交互之后，也不时地说话有东北味了

2，中途如果表达不那么精确，比如一些词重复说，中间加了语气词，或者意图说了一半做了修改，都可以比较满意的执行任务（前提是这个任务可执行）

3，唤醒词和指令可以连续输入给机器，在被唤醒之后可以直接执行命令

在接下来的几天里，我分别使用了在家庭和办公室中可能会经常使用的应用场景

分为电商，外卖，查物流，读新闻，电台，放音乐，记事（包括写邮件，随笔记），查天气，消息提醒（短信，微信，qq），设置提醒（闹钟，会议，节日），搜索（名词解释，历史今天，推荐），机器互联（用一个机器传给另一个机器消息，用音箱控制手机功能，音箱控制家电由于难以实现，不做表述，而且我说的这种更多的是内容上的互联）

当然这是我认为智能音箱在这两个场景中应该具备的能力，有一些现有的智能音箱还不能实现，还有没想到的后续再补充

电商

对于阿里旗下的产品，电商自然是必备技能，如果要顺利使用这一功能，要事先绑定自己的声纹作为支付密码，接下来做如下尝试:

“帮我买……”“我想买……”

天猫精灵会推送一款销量相对比较好的商品，报出的信息包括:名称，价格，询问是否购买，如果同意直接按要求说一串数字即可，如果让用户买的商品不太常见，比如一本书，如果没能搜到会输出相关商品信息

电商这个场景比较繁琐，一个购买流程的决策，在手机上会涉及:

打开淘宝，搜索，滑动观察价格，外形，点击进入，滑动查看商品信息（尺码，颜色，效果），查看评论，评分，选择尺码，颜色，点击购买，输入密码等一系列复杂的步骤（这还不包括加入购物车或收藏）

如果能用语音这种以提高解决生活问题效率的存在，自然有很大的应用空间，但是这些步骤同时反映了淘宝存在的意义之一，对一部分人来说是满足了在家挑选各种商品，并收入囊中的需求，这也是为什么很多人的购物车总是很多很多商品，那么用语音的方式购买，自然会失去这一部分乐趣，但与此同时也存在着一种意义，人们因为纷繁复杂的界面，难以快速做出购买决策，导致影响生活和工作效率，外卖也是如此，所以这也是语音的机会

如果用户用语音方式购买，就不能“眼见为实”，既看不到商品的外形，效果，又看不到别人的评价，自然会不放心商品的质量，外形等影响购买决策的因素，当然如果加上了这些因素，就会增加交互次数，进而挑战用户耐性，影响用户体验，反倒感觉不如用手机操作，还有一点，就是对于商品的推荐存在争议，同样是爆品，推荐哪一个的决策是否符合商家的利益

所以综上所述，用语音购物自然就代表着一部分牺牲，它的优势在于，随时想买，张口就买，购买流程缩到极简（再简就需要机器会根据用户的购买习惯，主动推荐，甚至主动提醒购买），所以对于像日用品，药物，食物等对外形没有要求的商品，由于刚需的特点，速度是更重要的因素，而且推荐的销量好的质量也不会太差，这种情况就可以达到快速购买的效果，比如正在做家务时，随口说“天猫精灵，给我买一袋洗衣粉”，输入口令密码就可以了，因此语音购物对于家庭场景，办公室场景都有其刚需购物的商品范畴，他们更是语音交互的受益者

不适宜通过语音购买的商品:

对外形，质量的要求较高的商品，如:衣服，鞋包，首饰，电子产品，家具家电等等

给重要的人买的商品:如父母，伴侣，孩子的礼物

价格较高的商品:如电子产品，家具家电，化妆品

相对比较适合语音购买的商品:

常用的牌子，直接输入:如手机，化妆品，书籍，药物

无所谓什么牌子，只要销量好，价格低都能接受:如日用品（柴米油盐，锅碗瓢盆，还有其他常用的日用品），会员，食品，水果

查物流

这个功能可以说是电商的附属品，由于场景较为简单，灵活度也较好掌握

“帮我查一下快递”

“看看我买的东西到哪了”

都会直接回复在手机淘宝上购买商品的物流情况

外卖

外卖的场景和电商本质相似

没有目标商品就随意翻翻，有想吃的就搜索，滑动翻看，点击进入，查看信息，点击购买，输入密码，步骤和购物相同

但是人们在购买时就会要求比电商小很多，因为外卖的图片参考价值不大，主要看的信息一个是价格，一个是销量，所以机器将这两个信息能提供给用户就已经能完美的用语音执行这个任务了，而一般推荐的都是销量比较不错的，所以价格就成了用户的主要考量，但是也存在几个问题，我们实际操作说明

（一）

“我想订外卖”

“为您推荐XXX，销量XXX，价格XXX，是否购买”

“价格太贵了，有便宜一点的么”

不识别... ...

也就是说用户对于推荐商品的价格不能掌握，这在电商中也是一个重要问题，在电商中购买时，差几块钱，用户可能容忍度更高一些，和心理预期差的多也不能接受，而在外卖中，几块钱的差距对用户也是犹豫的因素

（二）

“15块钱（能定什么/帮我推荐几个）外卖”

不识别... ...

“还有多久能送到”

跳到快递上... ...

“我饿了”

不识别... ...

“还有别的套餐么”

还是推荐这个套餐

选择商品不灵活，也反映了音箱在识别和执行用户指令时候的过于流程化，或者流程的匮乏，对于使用场景的思考不完善等一些问题

（三）

“我想吃麻辣烫”

“为您推荐XXX，销量XXX，价格XXX，是否购买”

“是，再加一瓶水”

不识别... ...

反映一个问题：用户对商家还有什么商品不了解，根据购买习惯提出配套购买其他的商品的需求或者让推荐一下该店铺的其他商品，不能识别

（四）

“哪一家的外卖活动力度大”

不识别... ...

因为活动也是很多人进行外卖选择的考量之一，在订外卖时，价格因素会被放大，所以但凡涉及价格相关的交互需求，都应该被重视

对于上述这些问题，都会增加交互的轮数，一般超过三轮还不能完成购买任务，语音就走向多余的边缘了，电商也是如此

这是交互层面的问题，还有一个问题也不能被忽视，就是外卖在一个时间段能做的单数有限，能送的单数就更有限，所以如果周边的几十个外卖单子有将近一半都订了同一家，那对于这一家和其他的店铺都是灾难，所以如何优化推荐算法，让每一家的信息能够实时的更新，从而缩小推荐范围，对于卖家和买家都是好事

记事

在这一场景下，家庭和办公室都可能会用到

家里：记录随笔，记录日程

办公室：写邮件，写会议记录

但是这种指令现在还不能识别

查天气

这种单次的指令，又是刚需且经常会用的场景很适合语音来做

“今天天气怎么样”

“今天气温XXX，晴，适合穿XXX”

“明天有雨么”

“明天气温XXX，晴，适合穿XXX”

但是如果要求更高，使用更灵活，还是会受限制

“这一周哪天是晴天”

不识别... ...

“今天适合穿什么衣服”

不是从天气角度回答

消息提醒

这对于语音来说应该是对用户很简便的功能，但是音箱并不提供这个服务，也许要顾虑用户的隐私、场景的复杂性，所以没有添加，但是可以让用户设置什么时候需要机器进行消息提醒，毕竟这对用户来说是一个很有必要的存在，也是语音的意义之一:可以同时让用户做多件事

听歌，电台，广播，新闻

这个场景是在用户长时间使用过后，最频繁使用的，其他的更多是在你需要的时候，张口可以执行，而这个是你不知道让它帮你做什么时，最常想到的功能，设计者自然也知道使用的频繁性，也可能是因为语料的充足，所以交互也更灵活

“我想听歌”

“为您播放XXX的XXX”

“换一首英文的”

“为您播放XXX的XXX”

“大点声”

“音量为您调到XX”

“放首适合洗澡/做饭/睡觉/寝室听的歌”

“为您播放适合XXX听的歌曲：XXX”

“我想听新闻”

逐条播放

“我想听体育/娱乐/财经/社会新闻”

逐条播放

“换一个/播放刚才那条新闻”

如果中途打断，可以继续播放刚才的音乐

播放睡眠歌曲时，会提醒可以设置三十分钟后自动关机

很多灵活的要求都可以满足，但是我说了，人们的欲望和好奇心是不能填满的，比如

1，如果我说上述的任务口令之前都加上一句“天猫精灵”呢？整个场景就从很自然变得很不自然了

2，正在播放音乐时：“换一个歌手”

不识别... ...

3，放睡觉音乐时，音量不能主动降低

4，音乐和其他任务是串行的，不能同时工作，比如一边放着背景音乐，一边放着其他音频

当然除了第一点难免有吹毛求疵的嫌疑，现在从用户使用的频繁度和用户需求的满足度来说已经很好了

提醒

这个场景也是相对比较频繁的，因为用户在使用这个功能时需求很明确，不是像购物，外卖等模棱两可的。只需要直接发出设置闹钟提醒，日期提醒，会议提醒的任务，时间和内容即可

“帮我设置一个提醒”

“请问什么时间提醒什么内容呢”

“明天七点，给我妈打电话”

“帮您设置明天七点的提醒：给我妈打电话，您看可以么”

“改成一小时以后”

“帮您设置一小时以后的提醒：给我妈打电话，您看可以么”

“设置闹钟”

“需要几点的闹钟呢”

“十三点二十”

“帮您设置十三点二十的闹钟，您看可以么”

“改成十点”

“帮您设置十点的闹钟，您看可以么”

“取消吧，不设置了”

“好的，已为您取消”

这里闹钟会用一直放歌曲的方式提醒，直到进行关闭或者唤醒操作，其他提醒，只是播放一次提醒的内容就关掉了

所以在提醒这个场景中，交互的灵活性还是可以一定程度的满足

搜索（名词解释，历史今天，推荐）

这对于语音来说是一个的先天优势，无论是在哪种领域，使用哪种硬件，都会需要对该领域或者通用的零碎知识的介绍，而语音可以很好的规避用户拿出手机，打开软件，输入搜索内容的复杂步骤，能够随时在需要的时候顺口一说，机器将最优的搜索答案播报，再合适不过

当然也存在一些问题，很多专业领域还不能很好的解答，而且答案的篇幅过长，信息传输效率慢的特点又显露出来

最后说机器互联

这个场景在未来会更常见，在今天自然也很难满足，我们最终要用物联网也好，智能硬件也好，还是要搭建一个硬件的整体环境，让人们生活在这个环境中，用机器解决各方面的问题，享受各方面的服务，而语音无疑是最舒服，最快捷的人机交互方式，所以能否建立机器之间的彼此联系，还要有很长一段路要走

思考

首先对于这种智能音箱来说，有一点很明显，它是不适合闲聊的，不用说人对机器了，就是两个天猫精灵互相对话，一口一句“天猫精灵”的唤醒，听都听得难受，所以唤醒方式，信息输出效率都决定了对话要限制在最好三句之内

其次我们发现，其实使用智能音箱的用户大多还是使用一个音箱的功能——听音乐，新闻，广播，使用智能手表的用户还是使用一个手表的功能——看时间，使用智能耳机的用户大多还是使用一个耳机的功能——听音乐，其他的功能再完善，他们也是很少会需要，或者想起来用的，因为用这几样商品做最普通的事是他们十几年、几十年培养的习惯，对他们来说再自然不过

语音，我一直在说：成也自然，败也自然，它相对其他交互方式的显著优势就在于用最自然的方式解决问题，张嘴说一句即可，但是怎么能把问题在最短的时间，用用户感觉最舒服的方式解决也成了可能导致失败的导火索

就拿这个智能音箱来说，每次插电源，手机连网络，唤醒词，再加上合成语音和长信息输出的方式，无一不是在展示一个产品在使用上的不自然，从而导致耐心被消磨，或者在这种使用和学习的成本让他们感觉可有可无。当然有一些开发者想要培养用户的使用习惯，个人看来，这只是在挑战用户的耐性，而且终究会以挑战失败而告终，不去琢磨思考观察用户在这一场景中的生活习惯，心态变化，只是自以为的去创造，让用户去迎合，结果可想而知

使用智能硬件的人们有几个共鸣，要么用过几次之后，总是唤醒不成功有烦躁感，要么提出的要求不能完成有挫败感，要么几轮之后不知道还能用它做什么有迷茫感，而有一个可以缓解的一个很重要的解决方法就是：

主动询问，主动服务

这种主动服务需要机器存储用户过去的任务记录，这样可以在同样的情景，同样的上下文时主动提出相应建议或者服务，而要推测用户是在怎样的情景，需要对多维的数据综合分析，比如：室内温度，节日，时间，谈话具体内容等，可以用分类算法进行分类，如果很难加以推测，也问用户“是否需要其他服务？”来兜底

这样做主要是轮数的增加之所以在消磨用户的耐性，是因为用户一直是输出一方，如果机器能主动提出建议，减少用户思考的机会，才能享受机器，而不是去学习使用机器

最后说一点，无论是哪一种形式的智能硬件，首先都要找到语音交互的意义，没有意义也就是没有道，那么术再丰富也是没有必要的

这种意义在我个人看来，就是距离感

如果进门之后灯在手边，用语音开灯是没意义的，如果正在炒菜，抽油烟机就在头顶，用语音打开也是没有意义的，如果已经用手机拍了照，旁边就是打开相册的按钮，用语音执行操作也是没有意义的，这也是现有的智能硬件语音方案不断被吐槽的重要一点，在我看来也是重中之重

所以如果想让人们恰如其分地使用智能硬件，一定要在他们有这种距离感的前提下，建立功能，在此基础上建立交互，比如如果真的要建立手机助手，那么要在产生一个想法到完成这件事有一定距离感的前提下，插入语音操作，比如一键唤醒，“我要打车”，“订一份凉拌面”，“看一下我快递在哪”，这样也利用好手机随身携带的优势，又发挥了语音的价值

音箱的话像进门回家“打开热水器”“打开电视”等，当然这种距离感不只是空间的，也可以是时间的，比如:“三十分钟后帮我关灯”，还有其他诸如此类的应用场景

总之，有存在的价值才有后续其他思考存在的意义，而要找到这种距离感，需要对人们在每一个生活场景的观察，对他们行为的思考

智能音箱初体验和语音交互深思考

你可能感兴趣的:(智能音箱初体验和语音交互深思考)