浅谈语音交互界面设计

人机交互除了触控屏交互以外，语音交互越来越普遍，那么怎样才能设计出符合人性更智能的语音用户界面（Voice User Interface）呢？传统的语音交互都是单轮对话，而随着技术的发展，多轮对话将成为语音交互的趋势。单轮对话中一问一答就结束对话，没有更多交流衍生。而多轮对话，更像是你和某人聊天，一问一答的同时衍生出新的问题和新的回答，从而无限接近用户的真实诉求。那怎样设计多轮对话？机器通过用户信息及算法支持分析用户意图，分解出用户接下来的提问方向，让语音系统及用户产生更多轮对话成为可能。为此，需要尽可能将用户对话记录备份，这样系统才能有上下文的用户信息作为参考。虽然有时候用户只需要单轮对话就能达到他们的目的，即使用户决定不发生二次对话，聪明的系统还是会去思考下一步会发生什么。

VUI设计工具

示例对话：为VUI挑选最常见的使用场景，为这些场景写一系列最优路径的示例对话以及异常情况的示例对话。我们可以通过Celtxl来书写示例对话，当写完后，最好能将所写的示例对话读出来，会发现有些语句过于书面化或者不够口语化或者奇怪的地方。在开发前就做这些事，有助于直接让我们知道开发后的结果和对话愿景。

视觉原型图：(如果是多模态的系统，需要考虑界面和语音结合) 若是语音和图形界面混合的交互，则早期的线框图及原型是非常重要的。视觉原型图可将用户体验可视化，结合VUI，让用户产生更完整的视听体验。

流程图：在IVR中流程图被命名为呼叫流程图（call flow），用于展示VUI系统所有可能发生的路径图示，流程图需要列出用户进入下一个状态分支的所有方式。在开发语境中，流程图可根据交互类型分成多组：如日历、天气、搜索、电话、播放音乐等......根据不同的目的进行分组，对于具体事务组再细分画出流程图 (画流程图的工具有很多种：比如YED、Omnigraffle、Google Draw、Vision......针对VUI和自然语言理解NLU的流程工具也已经出现，如：Pull String、Wit.ai、Api.ai、Nuance Mix等......)

VUI的关键设计包含以下几个概念：

确定策略：需要明确应该使用控制式还是对话式。确认策略时可参考：１、错误的后果是什么？２、系统将以什么形式进行反馈？３、以什么形式来确认？

命令：控制模式、对话模式

目前主流的是命令控制模式，而随着AI的发展，更流畅自然的轮流对话设计模式将变得更普遍。控制模式最简单的例子是，当我们要和Siri对话时，我们必须长按Home键（push-to-talk），才可唤醒Siri。而对话模式则不会有控制键告诉机器用户要开始说话了，而是用更自然的对话技巧进行话轮转换；比如问一个问题，使用眼神交流，给出明确的提示等...... 需要强调的是不要强迫用户在不合适的情况下进行话轮转换。让VUI更加人性化或更具吸引力的方式是使用对话标识。对话标识能对用户的信息有正面反馈，或者是提问前让用户能有所预期。对话标识包括：时间线、接受回馈、积极反馈等

置信度阈值：VUI主要通过语音来反馈结果，确认信息对于体验非常重要，要做到这一点需要使用置信度阈值。使用三级置信度时，系统将一定的阈值内以明确的形式确认信息，若是信息置信度小于45％，则系统会通过显性确认信息。若是信息置信度大于80％，则系统将以隐性置信度来确认。

显性确认：需要强制用户确认信息，比如是否确定支付某一笔金额时，必须用户确认才可以，而且必须留有历史语音记录。

隐性确认：用户只需要接受信息，但无需强制确认，若是隐性确认，则允许用户撤销；

非语言式确认：仅需行动反馈，无需口头响应。就比如你说“打开窗帘”，此时智能家居系统就直接把窗帘打开了，无需再经过语音系统来反复确认。另外非语言式确认包含了特定音乐来反馈结果，比如洗衣机洗完衣服，会用一段美妙的音乐告知用户.....

通用确认：通用确认并不需要用户确认具体项目，而是开放式的聊天，从中我们可以了解用户的心情和状态等。这类反馈需要一些通用性的回答。

视觉确认：通常用户一次性不能记住超过大约7个听觉项目，语音交互稍纵即逝，对于用户的认知提出了新挑战，可视化列表可降低用户的认知难度。使用屏幕的另一个好处，我们能让用户快速确认某一件事情，但语音确认就会遇到置信度阈值问题。

异常处理：语音交互因环境噪声或用户声音的轻重，都有可能导致系统出错，VUI出错的情况有：未检测到语音信息；检测到了语音，但未识别出结果；语音被正确识别了，但系统不能处理这些信息的反馈；部分语音信息识别出错。

记录对话的上下文，为后续的语音输出提供信息和线索。尽量多的记录用户和语音的交互信息，这些信息可以帮助系统了解用户是谁，以及用户的一些角色行为特征。

在VUI中每种状态都包含一组通用组件：重复、主菜单、帮助、操作、退出。对于新手用户来说"帮助"组件是非常重要的，通常当他们不知道怎么操作语音系统时，快速呼出"帮助"可以让这类新用户获得有用的信息。另外全局的"退出"机制也很重要。在现有的界面设计中，退出是每个APP都有的操作；而人们与人会面或电话结束，也会非常自然的说"再见"，所以"退出"是一项很重的语音组件。

相对于原有的GUI设计来说，语音系统设计更为复杂。我们需要让用户明白，不管什么时候，什么地方他们都能与语音系统进行交互。比如当环境嘈杂时，语音识别因为信噪比而导致更多的出错情况，或者无法清晰识别信息，此时巧妙的异常处理就显得尤为重要。再比如当系统与用户进行语音交互，发现用户情绪非常糟糕时，语音系统是否能根据用户情绪的改变，而用更智能更舒适的方式来进行交互，也是设计师需要思考的事情。随着AI人工智能的发展，也许未来我们真的能遇到像电影《Her》中"萨蔓莎"这样迷人又善解人意的语音机器人，而这一切需要更多的设计师和技术投身于语音用户交互的研究中。

浅谈语音交互界面设计

你可能感兴趣的:(浅谈语音交互界面设计)