《语音交互》读书笔记

一、语音用户界面基本设计

原则

1. 利用好设备可视化的组件,通常是屏幕。确定交互过程中是否需要视觉化的呈现,比如搜索或是一个虚拟形象、多模态交互。

tips:VUI的前身是IVR——交互式语音应答系统(电话客服)

2.对话式设计——与系统进行一轮以上的交互,在这个时候,需要系统保留用户近期的对话记录,并思考用户接下来的意图。

3.设定用户期望。教会你的用户怎样使用语音指令。比如新手引导、使用中的引导、询问时给出示例(请告诉我你的生日,如1992年11月1日)

项目交付物

典型的VUI项目交付项包括:

1.示例对话(可能包括包括真实的录音)

2.流程图

3.界面原型(如果是多模态)

关键点

#确认策略#

1. 显性确认

强制用户确认信息。例如:你要汇款给高30000万,是吗?

2. 隐形确认

让用户知道他的话接收到了,但不需要确认。隐性确认的方法:

方法一:三级置信度。系统存在一定的信息判断阈值,在不同阈值内使用不同的确认方式:显性确认、隐形确认、信息未识别

例如:

用户:再买一些纸巾

VUI:(置信度大于80%,使用隐形确认)好的,已经为你订购了更多纸巾

VUI:(置信度45%-79%,使用显性确认)我想您是希望订购更多纸巾,是吗

VUI:(置信度小于45%)对不起,我没听清。

方法二:隐形确认 。只使用隐形确认。

用户:世界上最高的山峰是什么?

VUI:世界上最高的山峰是珠穆朗玛峰/珠穆朗玛峰

方法三:非语言式确认。系统将采用行动反馈,如开灯

注意:如果使用此种方式时行动反馈有延迟,那需要加上隐式反馈(好的,将为你开灯),或者采用音效

方法四:通用确认。用于聊天场景,不需确认

方法五:视觉确认。利用屏幕,用视觉反馈或音频反馈确认

#模式#

控制模式:利用唤醒词或按钮开启对话

对话模式:免唤醒多轮对话

#异常处理#    (异常情况包含以下情况)

1.未检测到语音

处理方式一:明确反馈(对不起我没听清)适用于以下情况:

系统只支持语音

用户没有其他回复方式(比如手机上的触控按键)

用户必须回复,系统才能继续任务/对话

处理方式二:什么也不做

用户可以通过其他方式进行下一步操作(比如按钮选择一个回复)

什么也不做也不会中断对话

有视觉提示表达没听清

2.检测到语音,但没有识别

类似情况一的处理即可

3.语音被正确识别,但系统无法处理

需要尽可能的搜集用户数据和涉及对话==

4.部分语音识别错误,ASR返回了错误的识别结果

N-best列表来预置用户可能返回的列表,提升识别率

其他处理方式:增强错误提示,并且引导用户给出正确的回复

#其他#

1.恰当的处理延迟,根据反应时间,根据不同情况确定反馈。唤醒词本地化可以减少延迟

2.消除歧义。当用户指令缺少必要信息时,主动发问,引导用户补充必要信息

#对话设计原则#

1.省事、高校,简短,语速快一点

2.允许随时打断

3.提供上下文语境,支持提示用户在哪儿

二、人物模型、虚拟形象

原则

1.VUI的人格需要提前确认。提前通过设定真实的人格特征来定义声音。VUI人格需要保持一致性。

2.虚拟形象、动画图解、纯文字等表现形式需要根据不同场景来分别考虑使用哪种界面表现形式。

#设计一个VUI形象需要什么#

1.详尽的对话示例

2.完善的情绪表情动画

3.不同时期的人物动作(如果有视觉形象)

4.人物小传——口头禅、习惯、情感、擅长、不擅长

三、语音识别技术

ASR_自动语音识别引擎

1.选择ASR的关键标准:识别准确性&语音端点检测能力(计算机判断用户何时开始或结束说话的能力)

端点检测经验

1.一般来说,1.5s的时间长度适用于大多数类型的VUI系统

2.结合场景

a.增长端点超时时间:机器主动提问,用户需要思考时 ;用户读取长串数字

b.缩短端点超时时间:比如用户只需要回答是或否时

没有接收到语音的反馈设计

1.立即反馈:对不起,我没有听到

2.如果用户只是激活机器,也可以选择保持沉默,仅给与灯光反馈

3.可以提供对话示例

4.有虚拟形象的时候,可以持续等待

5.提供帮助,比如在询问没有获得答案的时候,教育用户如何获得答案

儿童的VUI反馈小tips

1.保证系统不完全理解用户的答案时也能有反馈,兜底策略。比如 机器:你长大后做什么? 儿童:做xxx  机器(通用回复):听起来不错,我想成为一个园艺师!

2.提供图形化的选择方案

自然语言理解(NLU)

基本的语言回复类型:

1. 问题的答案有明确的有限的列表。(但依然要注意单一答案的泛化)

2.开放式对话。可以设置一定的通用回答(甚至不需理解对话)

3.分类输入。将同一类型的回复进行分类。机器的回复将会对这一分类进行统一的回复

4.通配符和逻辑表达式。提取关键词,搭配逻辑结构(and、or)比如 理解“我爸爸又忘记带钥匙了”=忘记and密码

消除歧义:

1. 没有足够的信息时=缺少意图——进一步追问

2.当系统只需要一个信息,用户提供的不止一条时——询问用户最紧急的信息or全部处理

3.意图精细化,一个关键词可能对应着多个意图,比如日历:查看日历;删除日历;添加日程

4.对话管理。系统对以往对话中已经产生的信息,以及在后续对话中所需要的信息进行管理的行为。系统会根据用户不同的回答,抽取需要的信息,并进一步追问用户还没提供的信息

5.原则是尽量显示识别到的信息,为了用户判断自己的意图是否被准确识别;识别过程中的错误翻译过程可以省略

6.可行的情况下,尽量识别用户情绪

7.可行的情况下,尽量识别用户音色,辨认用户身份

8.尽量结合语境和上下文,记录之前对话的细节,这会更加智能

9.利用多模态交互

10.建立自助数据集或链接其他可用数据集

你可能感兴趣的:(《语音交互》读书笔记)