再说点儿关于智能音箱的事儿

老土在10月19日入手了小米小爱智能音箱。

详见“终于入手了小米小爱音箱... ”

到今天刚好是一个月整,这一个月让老土对智能音箱这种东西有了更清晰的认识,这里与各位看官分享一下。

先说优势,的确语音的交互带来了极大的便利。就目前而言,老土家小爱音箱的最主要的应用场景是“小爱同学,播放音乐”,而后是用小爱设定闹钟和查询天气预报。其他的功能基本就是在最初的几天试用了之后就再也没有用过。

播放音乐是绝对的“最高频”应用场景

再说一些问题。

首先是语音操作,尤其是语音唤醒对环境的要求还是比较高的。目前看看在3-4米的范围内还是非常不错的。再远之后的问题就比较多了。

如上图这个距离小米小爱的语音激活和语音交互的反应都非常不错。只是如果在这个距离,为什么不直接用手点击音箱上面的触控按钮呢?

其次是之前老土非常看好的使用语音操作家里的智能设备(灯、扫地机器人)并不像想象中那么实用。毕竟要开灯的时候,只要走过去按一下就可以;要扫地的时候,只要走过去按下一下就可以。而使用语音操作的时候,还要小心翼翼的说,担心语音没有被正确的识别。这个时候老土不觉想起老罗在一次发布会上曾经提到过为什么目前语音识别率已经高达97%,为什么人们还是不愿意将语音作为默认的输入方式。老土认为这个观点非常有道理。

因为那3%的错误率导致用户不得不在输入之后再次确认,而这次确认导致的不便最终使语音输入不能变成主流。

语音识别率已经高达97%

第三,一些之前觉得非常重要的智能音箱的应用特性并不像想象的那样重要。在智能音箱的诸多技术特性中有两项“自然语言交互”和"多轮交互"算是非常关键的应用特性。其中,“自然语言交互”指的是用户可以像与人类对话一样与智能音箱交互,而无需刻意记忆和使用特定的“指令”;“多轮交互”指的是用户如果在与智能音箱的一轮交互中不能准确的表达自己的意图,可以通过多次(多轮)交互让智能音箱“最终”明确自己的意图。

但是在这段时间的使用中老土发现在绝大部分的应用场景中并不需要“自然语言交互”,用户在使用中可以很快的掌握使用某个功能的“关键字”。老土家的孩子将近8岁,老土并没有教过孩子如何操作智能音箱,孩子只是听了老土操作了两次便也就会操作了,而且也会使用特定的关键字来完成操作,并不会试图使用所谓的自然语言(如果真的让孩子用他们的语言随便说,小爱还真的搞不定)。

而小爱的“多轮交互”的问题主要有两点:第一常用的应用场景(小爱同学,播放音乐;小爱同学,明天天气如何;小爱同学,15分钟之后提醒我)完全不需要使用多轮交互;第二是每轮都要以“小爱同学”开头,自己都觉得好傻。如果某个应用真的不得不多轮交互,老土最可能的选择是“放弃通过智能音箱使用这个应用”。

看看上面的内容,除了在开篇的部分表扬了智能音箱,全篇基本都是在说智能音箱的问题!然而,就在昨天老土家的孩子突然说,“唉,爷爷奶奶家要有一台小爱就好了!”,这个时候老土突然意识到,也许智能音箱还不成熟,但其价值已经凸显而出。而老土也相信在不远的未来语音交互将成为一种最基本的交互方式,虽然其目前还有很多问题,还有极大的提升空间!

前途是光明的,道路是曲折的

你可能感兴趣的:(再说点儿关于智能音箱的事儿)