语音交互流程

一、流程概述

语音交互的完整流程大致为:
唤醒→语音识别(ASR)→自然语音处理(NLP)→语音合成(TTS)
可以类比为:
打招呼→耳朵→大脑→嘴巴

二、步骤详解

1、唤醒

(1)定义:将设备从休眠态变为工作态
(2)唤醒方式:语音或按键。语音可设置唤醒词,按键一般是长按电源键0.5s。
(3)语音唤醒的工作原理:
a. 基于模板匹配:把唤醒词转换成特征序列,将录入的语音和特征序列进行匹配,匹配就唤醒,否则仍继续休眠
b. 基于隐马尔可夫模型:将唤醒词和其他音频分别建立模型,录入的语音分别传入两个模型,然后比对模型得分,根据得分高低比对来决定是否唤醒
c.基于神经网络:取决于是否用到了神经网络的原理
(4)唤醒词的设计
简单来说就是:不短不长,不重不难。解释一下,唤醒词应该尽量精简,避免难以记忆,又不能过于短,容易误唤醒;每个厂商一般都会设计自己特定的默认唤醒词,其一般会含有语音助手的名称,避免和其他厂商重复。用户也可以自定义唤醒词。
(5)唤醒正确率的衡量指标
唤醒率、误唤醒率。
a. 唤醒率常用百分比表示。模拟用户的使用场景,多人多次测试,重复说唤醒词,被成功唤醒的占比就是唤醒率。
b. 误唤醒率常用24小时被误唤醒多少次表示。模拟用户的使用场景,多人多次测试,重复说非唤醒词,被成功唤醒的占比就是误唤醒率。

2、语音识别(ASR)

(1)定义:将声音转化为文字
(2)流程:声音→数字向量→文字
http://www.woshipm.com/ai/2620327.html

3、自然语音处理(NLP)

(1)定义:用于将用户的指令转换为结构化的、机器可以理解的语言。
(2)处理方式:基于规则;基于数据训练模型
(3)关键词:技能、意图、槽位
http://www.woshipm.com/pmd/827437.html

4、语音合成(TTS)

(1)定义:将文本转换成语音
(2)方法:拼接法、参数法
http://www.woshipm.com/pmd/1381081.html

相关链接:
http://www.woshipm.com/pd/4098761.html
http://www.woshipm.com/ai/2620327.html

你可能感兴趣的:(语音交互流程)