语音信号处理第九章

文章目录

  • 语音识别系统
    • 识别系统的组成
    • 预处理和参数分析:
    • 语音识别部分
  • DTW
  • 孤立词识别系统框图

注:只包括考试内容

语音识别系统

识别系统的组成

语音识别一般分为两个步骤:
(1)“学习”或“训练”阶段——建立识别基本单元的声学模型以及进行文法分析的语言模型
(2)“识别”或“测试”阶段——采用语音分析的方法分析出这种识别方法所需要的语音特征参数,按照一定的准则和测度与系统模型进行比较。通过判决得出识别结果。

预处理和参数分析:

(1)话筒自适应和输入电平的设定
(2)抗噪声。对于平稳噪声,使用谱相减降噪声技术。对于非平稳噪声,通过两个话筒将输入语音和噪声相互抵消。
(3)语音区间的端点检测。常用基于相关性的语音端点检测算法。

传统的双门限法在噪声较大时容易发生漏检或虚检。基于相关性的检测原理是:语音信号具有相关性,而背景噪声则无相关性。

(4)语音参数分析。常用10~15维的倒谱参数、MFCC进行识别。

语音识别部分

(1)语音模型。基元选的越小(音节比起短语就是小的基元),存储量越小,正确识别率也越小。
(2)连续语音的自动分段。
(3)语音识别方法。主流算法有基于参数模型的HMM,基于非参数模型的VQ,基于动态时间伸缩的DTW算法
(4)距离测度。常用的有欧氏距离、似然比测度,这些取决于识别所选用的语音特征参数
(5)在有限的硬件和软件资源下,计算量和存储量的削减
(6)拒识别处理
(7)识别结果的候补选择
(8)用户设定

DTW

原因:实际上不能简单地将输入参数序列和相应的参考模板直接做比较,因为语音信号具有相当大的随机性,时间长度不可能完全相同。在进行模板匹配时,这些时间长度的变化会影响测度的估计,从而使识别率降低,因此时间伸缩处理是必不可少的。
原理:使映射后每一帧与目标帧的距离都最小

方法:假设原本有N帧,目标有M帧。建立一个M×N的矩阵,每个点存放原本的第N帧和目标的第M帧的欧氏距离。于是,从(N,M)开始,不断寻找拥有满足条件的最短距离的前一格,累计下去,直到到达(1,1)。这样就使得最终得到的m=φ(n)映射函数能够使两者距离最短。前一个点只能是满足以下位置的点:
语音信号处理第九章_第1张图片

孤立词识别系统框图

语音信号处理第九章_第2张图片
理论上,只用这本书的技术来做孤立词识别系统的话,MFCC+HMM是识别率最好的

你可能感兴趣的:(语音信号处理)