语音用户界面(或VUI)是一种交互模型,在该模型中,人与机器进行交互,并至少部分通过使用语音来执行一组任务。
实际上,这种方式的交互式语音应答(IVR)系统在银行业和旅游业中已经得到了广泛的应用。这些系统主要依赖于语音生物识别来识别用户并使用语音作为主要交互模式完成的任务集。随着亚马逊Echo、苹果的siri 等产品的诞生,VUI发生爆炸,各大公司也开始尝试多媒体交叉设备的体验。
“治学先治史”,了解语音技术的过去点滴,大概会有些帮助。
早在1961年,IBM设计了一个名为Shoebox的实验装置,是由William C.Dersch开发的,大概是早期的语音识别设备。机器把声音转换成电脉冲可以识别出16个单词。在1962年西雅图举行的世界博览会上首次展示,这可能是自动语音识别(ASR)和自然语言理解(NLU)的起点,但只涉及第一部分的声音识别。对于纯语音用户界面,机器生成人声早在1939年或更早的时候就有了。
霍默·达德利(在新泽西的贝尔电话实验室)的Voder是第一款能够产生连续人声的电子化设备。1939年,阿尔登·P·阿玛涅克在《大众科学》杂志上写下了关于这一装置的文章。它是用真空管和电路制成的,是为了复制人类的声音。为了进行对话,机器操作员使用了一个像风琴一样的键盘。十三个黑白键产生了所有的元音和辅音,另一把键控制着合成声音的扬声器响度。脚踏板改变了音调,使同一句话可以陈述句或疑问。大约一年的培训,操作员就能使机器说话,想起来也是一个有意思的东西。
2000年初,IVR系统成为主流。任何有电话的人都可以预订飞机航班,在账户间转账,查找当地电影时间,听交通信息,所有这些都只使用普通电话和人声。
语音交互、增强现实和虚拟现实等技术或许已经存在或研究了相当长的时间。令人兴奋的是,它们最终在市场上广泛商用了,这就需要设计师和工程师来承担开发场景以解决用户日常问题的挑战。
语音助理已经风靡各地,为什么呢?它的优势有:
自然
解放双手
快速响应
个性化
语音是人们交流的基本手段。其他形式的交流方式如写作、面部表情或手语,在所有文化中也都同样具有表达力,但人们主要还是通过语音来说服、告知和建立关系。语音助理能够在不同的场景和渠道中保持一致。
用户通常会就手头的特定任务进行语音对话。交互通常很短,来回的交互也很少。用户可以通过对话来完成一项任务,即使他们不忙,不能总是全神贯注。用户在通过GUI执行相同任务时会感觉到很多延迟或不爽,而对话将有助于减轻这种体验。
在语音识别中,得到对话所有的上下文几乎是不可能的。上下文大约分成三类:
物理上下文
情感上下文
对话的上下文
从物理、情感和会话上下文中,可以创建一个关于会话内容的推理或得出结论,得出一个拟人化的结果。
对话的意图大约有两种,一种是目标反馈确定的,一种是不确定的,对于不确定的意图需要更多的用户选择。 也就是说,大约可以分为基于意图的对话和随机问答。基于意图的对话是为了完成一个目标或完成一个任务而进行的对话。心里有一个意图,需要助手的回答,这时只想完成一项任务。随机问答是指用户与助手进行交互时没有特定的意图。他们只是想和助手聊天,谈兴趣,也许是想更多的彼此了解,建立一种关系。
当然,语音交互有着自己的局限。在IVR中,很难暂停系统,相反,用户必须不断地进行交互,而视觉组件可以让用户以更轻松的方式继续交互。另外,是在公共场所使用方面的限制。用户可能不能在某些公共空间使用语音,因为这样做会侵犯用户的隐私。
人的一种主要行为,就把人的情绪联系起来,试图理解一个复杂的物体。不过,大多数消费者的底线是,更愿意与一个温暖的身体交谈,而不是与一台冰冷的电脑交谈,因而需要关注语音应答的多样性。
逐步披露是人机交互中常用的一种交互设计技术,通过减少混乱、混乱和认知工作量,帮助保持用户注意力的焦点。这通过只提供手头任务所需的最小数据来提高可用性。一般使用犹豫标记,或者增加短语询问。
给语音助理赋予人性化,可能需要一些因素:
经验的开放性,这可能包括对艺术、情感、冒险、不寻常的想法、好奇心和各种体验的欣赏。
责任心,可以是高效/有组织的,或者随和/无关紧要的态度。
外向倾向于表现为外向、健谈、精力充沛的行为,而内向则表现为较为保守和孤独的行为。
令人愉快的对话,体现善良、同情、合作、热情和体贴的个人行为特征。
神经质,可能是惊喜,也可能是惊吓。
模仿的行为可以与另一个人更相似,感知到的相似性可以作为基础。
基于语音的交互或语音检测依赖于一个设备,该设备有一个性能良好的麦克风来捕捉/记录用户的指令,可以参考过去一篇文字。
VUI与GUI成为人机交互规范的时候非常相似,设计人员需要清理混乱的逻辑,简化数据,并向用户提供更容易掌握的流程和解决方案。以电视遥控器为例,设备上有20-30个按钮时,操作起来就会非常困难,一个人很难理解所有按钮的作用。没有好的设计,技术就很难甚至不可能得到应用。
用户体验设计围绕着整个用户旅程展开,即回答用户对特定用例可以做什么,然后理解用户能够以无障碍和愉快的方式满足需求的最佳方式。
从一开始就不能决定只使用一个模态,但是设计者必须理解用户根据系统的输入和输出模态完成特定任务的需求。
对于具有图形用户界面的数字助理,当有动画选项时,这变得更有趣。在这里,助理会表现得像人一样;会倾听你的问题,思考,回答,开个玩笑,唱歌,表达悲伤和愤怒,还有很多其他的情绪。
多交互方式并存,形成了人机交互的领域。人机交互(HCI)已经存在了相当长的一段时间了。在20世纪50年代初,用穿孔卡片存储数据和输入,随着个人电脑的引入而发生了颠覆性的变化。20世纪80年代后期,几乎使世界上的每个人都成为潜在的计算机用户,也暴露了关于可用性的问题。
HCI整合了认知心理学、人工智能和思维哲学,以阐明系统化和科学化的应用,称为认知工程。它使具有概念、技能和远见的人能够满足人机交互的实际需求。
HCI 的设计有很多的经验和原则,对于VUI同样有着参考意义。例如,Ben Shneiderman 关于界面设计的8条金规:
争取一致性
允许用户使用快捷方式
提供信息反馈
设计对话以实现闭环
提供错误预防和简单的错误处理
允许轻松逆转操作
支持内部控制点
减少短期内存负载
又例如,Donald Norman的七个设计原则:
在头脑中运用现实世界和知识
简化任务结构
使事物可见;缩小执行和评估之间的差距
正确绘制地图
利用自然和人工约束的力量
面向错误的设计
当所有其他方面都失败时,标准化
还有现在广泛使用的Nielsen启发式UI/UX设计原则:
系统状态的可视性
与系统和现实世界相匹配
用户控制和自由
一致性和标准
灵活性和效率
错误预防
错误报告、诊断和恢复
美学和极简设计
识别而不是回忆
帮助和文档
创建一个平滑无缝且自然的 VUI 对于使用的人工智能产品来说至关重要。对VUI而言,也有着自己的设计技巧:
了解智能引擎的背后,成功与否取决于真正为体验提供动力的内部架构。
构建自己的设计工具栈,Adobexd非常适合用于线框用户流程图,语音工具包括Walkie, Botframe 和 Mockabot等。
个性在设计中表现出来,而不是交给设备。个性表现在设计决策和独特的工作流程,坚持利益相关者的有效执行。
少即是多。设备所说的实际语言必须清楚地满足其用户的需求,剩下的才是措辞,句子结构,音调,甚至声音本身的音调变化等。
在配音的时候要专业一点。专业的录制最好有TTS的客户经验,为人工智能对话设计音频与制作音乐甚至是传统的配音有很大的不同。
在 VUI 之外保持角色的一致性。如果图形元素不能和谐地补充语音元素,那么创建一个杀手级的 VUI 将被证明是徒劳的。
让语音设备保持亲密状态。有竞争力的产品是需要尽可能多地挖掘 。
鼓励尝试。场测和错误验证,再加上可靠的用户研究,无论多么细致,都不会让你成功地将最微妙的特质融入到你的语音交互体验中。
一切都是达到目的的手段。归结为一件事,数据是人工智能的全部。个设计良好的 VUI 应该通过成为习惯的具有启发性的交互体验来补充这个过程。
设计的分享。目标、需求、最佳实践、技术、技术、工具集和行业每天都在不断变化。 知识和经验的扩散是揭开人工智能个性设计的神秘面纱并使之标准化的最佳途径。
然而,“大道易得,小术难求”。行胜于言,努力去学习和实践才能得到更多的理解和认识。
(本文图片来自网络,如有侵权,联系作者删除)
参考资料
https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html
http://www.speechtechmag.com/Articles/Editorial/Feature/Its-a-Persona-Not-a-Personality-36311.aspx
https://www.forbes.com/sites/mnewlands/2017/08/25/10-essential-tips-on-voice-user-interface-design-for-ai/#29f764dc2422
https://www.theatlantic.com/science/archive/2017/12/the-secret-lifeof-um/547961/
http://www.csun.edu/science/courses/671/bibliography/preece.html
Nielsen, 1995, https://www.nngroup.com/articles/ten-usability-heuristics/