语音处理入门概念整理(二)

最近刚发现了阿里iDST在阿里云上面的一门课,是与语音相关的一些内容讲解,课程不长,对理解有一些帮助。
涉及概念参考来源:《智能语音交互技术与应用》

11) 语音应用:个人助理,转写字幕,声音信息抽取

12)语音识别就是将语音转换为文字,应用主要分为两类:一是ToB(速记,实时字幕,智能语音客服,客服电话智能质检),二是ToC(个人助理,语音输入法,智能硬件)

13)限制应用的影响因素主要分为三方面:环境影响(噪音,信道,场地,麦克风),说话人影响(口音,方言,音量),说话内容影响(中英混读,专业术语)

14)度量标准:识别错误率(Character Error Rate, Word Error Rate)

15)核心模块:声学模型(给定语言学单元,计算输入语音匹配的可能性),
语言模型(计算各种不同文本序列搭配的可能性)
解码器(根据不同的可能性来得到最有可能的文本序列,即识别结果)

16)声学模型种类:
语音处理入门概念整理(二)_第1张图片

17)语言模型种类:N-Gram,RNN语言模型

18)语音合成:将文本转化为语音的技术。
应用:智能助手,客服,语音呼叫。

19)语音合成发展史:1)基于机械装置的语音合成。2)基于电子元器件的语音合成。3)基于波形拼接的语音合成。4)基于HMM的参数语音合成。5)基于波形拼接的大语料库语音合成。

20)语音合成前端是文本分析,需要文本标注数据进行前端文本分析,步骤为:输入文本、分词(WS)、词性标注(POS)、命名实体识别(NER)(识别人名地名等)、韵律词预测(PW)、韵律短语预测(PP)、多音字消歧(PD)、字音转换(LTS)、输出。

21)语音合成后端输出,利用声学标注数据,后端模型生成语音。基于HMM的合成一般过程为,语音的音库进行语音的模型训练,需要语音的参数和对应的标准和决策树,之后生成参数,运用参数合成器可以合成语音,这种方法比较平滑,数据量需要少,缺点是音质不高、韵律平淡。

你可能感兴趣的:(语音处理)