解构语音交互产品--认知篇

目录

  • 一、基本概念
    • 1.什么是机器人bot
    • 2.GUI、VUI与CUI
  • 二、语音交互产品主要应用场景
    • 1.家居场景
    • 2.车载场景
    • 3.随身/移动场景
    • 4.办公场景/企业应用
  • 三、VUI设计的相关问题
    • 1.为什么使用VUI
    • 2.不适合使用VUI的场景有哪些
  • 四、VUI设计的挑战

一、基本概念

1.什么是机器人bot

机器人是一个对话式界面,这种新的用户界面允许用户通过移动应用或设备与服务商互动,以获得产品和服务。
关于机器人的一个常见的错误观点是“机器人就是一种服务”,而其实它只是服务的一个界面

2.GUI、VUI与CUI

1)GUI, Graphical User Interface, 图形化交互,自从80年代苹果推出第一款搭载GUI的电脑后,至今为止GUI一直是人机交互的代表。它为用户提供可视化的界面,将内容信息通过视窗、菜单、标签、按钮等控件以图形方式显示给用户。

2)VUI,Voice User Interface,语音交互/语音用户界面。语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。
VUI的发展有两个重要时期:

  • VUI第一时期:交互式语音应答IVR系统代表了VUI的第一个发展时期,它诞生于70年代并在2000年普及。主要是通过电话线路理解人们的话并执行相应任务。
  • VUI第二时期:我们正在处在的时期是VUI的第二时期,人们通过自然语言与计算机进行交互,主流的语音产品有结合视觉和语音的app,例如苹果Siri、微软Cortana等,除了这类手机语音助手,还有很多APP(例如搜索、地图、购物、输入法、视频游戏等)和设备(例如汽车、智能手表、手环等)都可以应用语音交互。还有以语音为主的设备,例如Amazon Echo、Google Home这类家庭助理。下文会有关智能交互产品的一些案例介绍。

3)CUI,Conversational User Interface,对话式交互。跟语音交互相比,CUI的范畴更宽泛。但是没有语音过程、只有文字的对话交互流程,可以称为CUI,但是不能称为“语音”交互。一些不适合使用语音作为交互方式的场景,比如开放的办公场景,通常采用基于文本或其他非音频的富交互/富控件来进行对话。

4)多模态交互(VUI+GUI)
将视觉和语音结合已经不是新鲜事,比如手机语音助手类产品,而智能音箱类设备也是从开始的没有屏幕到推出屏幕版。使用屏幕的优点在于可以将一些可视化列表在屏幕中展示,能降低用户的认知难度; 二来可以用来确认用户的选择。

二、语音交互产品主要应用场景

有哪些适合使用语音交互的场景呢?下图是KPCB 2016年互联网报告中,美国使用语音助手的主要原因和场景。在场景方面,家居场景占比最高43%,其次是车载场景36%,随身场景19%以及办公场景3%。
解构语音交互产品--认知篇_第1张图片
下面是对主要应用场景的简要分析和举例。

1.家居场景

家居场景的语音产品主要集中在家庭娱乐、家居控制、医疗健康和陪伴教育。典型的设备有智能音箱、智能电视、空调、机器人等。

1)智能音箱
智能音箱是智能家居的核心入口,近年来产品发布如下图:
解构语音交互产品--认知篇_第2张图片
图中列举了主要智能家居语音助手的产品发布,在2018年3月美国语音助手市场中,Amazon Echo的市场份额依然达到61.9%(相较之前的70.6%有所下降),Google Home 占26.6%,其他厂家包括苹果、Sonos等占剩下的11.5%。
解构语音交互产品--认知篇_第3张图片
根据Voicebot的调查报告显示,用户使用智能音箱使用最多前三个技能是:听音乐、提问题和查询天气。
解构语音交互产品--认知篇_第4张图片

2)医疗健康-老人陪伴机器人
主要用途:陪伴老年人聊天,解决孤单问题。与智能音箱不同的是,它更多关注在老人健康方面。同时也有讲故事听音乐,日程提醒等这类智能音箱类家庭助手的功能。
以色列公司Intuition Robotic 2017年推出的老年陪伴机器人Elli Q
解构语音交互产品--认知篇_第5张图片

3)儿童教育机器人
儿童教育和陪伴机器人结合了语音交互功能,市场目标用户是K12阶段的人群(3-18岁),主要用途是儿童娱乐、互动和教育启蒙。目前已经是一片红海。部分产品如下图:
解构语音交互产品--认知篇_第6张图片
其中在这个领域市场估值第一梯度的优必选,从2014年到2018年获得了4次投资。它的机器人悟空是与腾讯合作,通过腾讯云小微"叮当"开放平台构建的语音对话机器人。

2.车载场景

车载场景的语音产品主要用途在路线导航、周边搜索和目的地推荐。典型的设备是整车系统、后视镜、行车记录仪等设备。通过车载语音交互,释放驾驶员的手和眼,让司机专注于路况。
下图是“出门问问”推出的车载机器人:问问魔镜
解构语音交互产品--认知篇_第7张图片

3.随身/移动场景

1)APP移动应用类
随身场景中最典型的智能手机上的语音助理,像Siri、Google Now、Hound和Cortana等。现在还有很多APP中都有语音交互功能,如搜索、地图、购物、输入法、视频游戏等。
解构语音交互产品--认知篇_第8张图片

百度地图

今年10月1日,百度地图公布其语音助手用户量累计突破3亿。最大变化是来自语音请求的大幅增长。百度地图可以为用户提供智能推荐交通搭配、预测拥堵、调整出行时间及路线等服务,可查询天气、事故,热门景点和停车场推荐等。这些场景都能与语音交互很好的结合。

浦发银行信用卡APP-“浦大喜奔”
今年“浦大喜奔”APP接入了智能语音助手,用“小浦小浦”唤醒词,能为用户的高频操作提供服务,例如还款、查账、查额度、查积分、每日签到等。
解构语音交互产品--认知篇_第9张图片

2)设备类
除了APP类,还有典型的硬件设备智能耳机、手表、手环等。主要应用在户外运动、路线导航和周边搜索。
解构语音交互产品--认知篇_第10张图片

4.办公场景/企业应用

语音/聊天机器人在企业运营方面,特别是帮助改善客户和员工体验方面也是强需求的。对于解决客户问询、指引、信息录入等重复性工作,由语音交互产品或者服务类机器人代劳,可以释放人力资源。
目前常见的有智能客服机器人,如这领域深耕多年的是智臻智能–小i机器人,创新企业有智齿客服,BAT类互联网巨头的有阿里小蜜、百度夜莺、网易七鱼等。

三、VUI设计的相关问题

1.为什么使用VUI

1)解放双手和眼睛。双手被占用,或者眼睛盯着其他地方无法集中在屏幕时,通过语音与计算机交互是最好的方式。例如驾车场景就具有强需求,双手固定在方向盘,双眼需要看路况,利用语音交互可以获得司机想要的信息/服务。除了日常生活,也可以为特殊人群服务。

2)更快得到结果。用语音听写文本消息比打字、操作鼠标更快。

3)贴近本能。每个人都知道如何说话,不论对技术是否熟悉。比如小孩只要会说话,就能用自然语言向语音产品进行提问。根据数据统计,Siri类手机语音助手的用户群体中粘性是最高的小孩子。

4)无界面限制,避免混乱的菜单。语音产品的任务处理是单一线性的,没有产品架构的限制,与GUI产品相比,免去了二维界面下的信息架构复杂性问题。能极大简化用户的操作流程,为生活提供更多的便捷性。

5)亲切人性化。自然语言中包含了语气、音量、语调和语速等特征,这些特征传达了大量的信息,能让你知道对方的情绪,从而更好的进行对话。而这些特征通过文字是很难理解的。

在KPCB 2016互联网报告中,使用语音交互的原因中“有趣/酷”占比22%,但在语音产品在现在越来越常见,很多人在新鲜感过去后,会对语音交互失去兴趣,回归到触控为主的交互方式中。有趣已经无法成为语音类产品的核心价值,而用途不明确和缺少实用性,是用户弃用或不怎么使用产品的首要原因

2.不适合使用VUI的场景有哪些

1)公共场所。首先在多人开放的空间,这种情况下由于背景噪音,或是有多个用户一起说话,造成语音识别率低。且出于隐私和信息安全考虑(比如助理提醒你吃药,或者APP让你输入身份证信息等),也不适合在公共场所使用语音。

2)用户不适应对计算机讲话。由于习惯问题,用户不一定习惯对计算机大声说话,如果是此类用户则不适合用VUI。

3)一些人更喜欢打字。打字输入的惯性强大,在手机端语音的使用一定程度上要考虑打字和输入的配合。

四、VUI设计的挑战

1.“无边界”设计
VUI的最大挑战之一是告诉用户可以让语音产品做什么。
在GUI设计中用户所有可能的操作都能展示在屏幕上,你能看到哪些按钮可以点击那些菜单可以打开,而对于语音界面来说,功能都是不可见的,不可能让用户通过视觉的方式来探索功能。用户的输入信息是无法穷举且没有边界的。

2.“多场”交互的设计
语音交互涵盖了近场识别、中场识别和远场识别三种情况。远场交互产品与GUI设计的差异大,而且设计难度大。目前的VUI设计主要在中场和远场交互中发力,中场包括车载语音系统,远场交互有智能音箱等智能家居产品。

3.语音识别准确率
各家公司宣传的语音识别率达97%一般是需要用户安静环境下,近距离、清晰发音条条件下才能达到的。而在真实使用场景中,因为空间距离、背景噪音、人声干扰、回声等问题,目前远场识别的错误率是近场识别的2倍左右。
一些语音识别率不够好的场景有:

  • 车载场景,存在很大的噪音、多人说话干扰等问题,语音识别效果并不理想;
  • 家庭场景中的远场交互,对远场语音识别技术有较高要求;
  • 一些语料数据少的场景,比如儿童教育机器人,因为儿童的音调高,加上低龄儿童说话的一些口吃、长时间停顿等现象会造成识别困难;
  • 中文和字母数字混合的字符串,目前处理起来也比较困难。

4.语义理解
语音交互设计涉及到自然语言处理技术,目前技术还不完善。无法充分理解用户的输入,就可能造成沟通障碍,降低使用体验,且无法根据用户的上下文和情境去提供个性化服务。

5.多轮对话
目前还有很多语音产品只是做单轮的搜索,没有做到多轮对话。在谷歌的对话交互设计指导中,提到对话基本原则之一:对话中所有元素都应该被连贯的串联在一起。要注意上下文相关性,并对每个对话回合进行理解。VUI要理解上下文和情境,具备多轮对话能力,否则产品实用性方面会停止不前。

6.与用户持续互动的能力
正如前面所说,如果产品只靠语音识别的“有趣/酷”,而没有实用性是无法形成用户粘性的,VUI设计要找到核心场景,持续挖掘用户需求,并为用户创造价值。

参考材料
《语音用户界面设计》by Cathy Pearl
百度2017语音交互体验蓝皮书
2017年亚马逊Echo研究报告
格视智库-中国智能业务与应用白皮书

你可能感兴趣的:(解构语音交互产品--认知篇)