论文导读:别算法 (一)动态时间归整算法 发音具有随机性,同一个人在不同时间,不同场合对同一摘自:7彩论文网写毕业论文经典的网站http://www.7ctime.com个字的发音长度都不是完全一样的。在语音识别的模版匹配中,这些长度不一的发音将降低系统的识别率。为了解决这一问题,我们引入动态时间归整算法(Dynamic Time Warping,DTW)。在
摘要:论文在语音信号分析的理论基础上,研究了基于模型补偿的识别算法,对比了语音识别最常用的两种算法:动态时间归整算法(DTW)和隐马尔可夫算法(HMM),并针对两种算法的不足进行了改进。基于改进后的算法在MATLAB环境下搭建了孤立词语音识别系统,提高了识别率,节省了运行时间。
关键词:动态时间归整算法;隐马尔可夫算法;语音识别
1007-9599 (2012) 11-0000-02
随着人们对人机交流技术的要求越来越高,语音识别技术应运而生。语音识别是将语音信号转换成相应文本的高技术,是一种重要的人机交互技术。在近二十年,越来越多高水平的研究机构和企业加入到语音识别的研究领域,并开始向市场上提供产品。其中具有代表性的产品有微软的Whisper系统,Google的Word Search系统,苹果的Siri系统等。
语音识别最重要的性能指标就是识别率,而识别率十分依赖特征参数的训练和识别模型。常用的模式匹配和模型训练技术主要有动态时间归整算法和隐马尔可夫算法。文中就这两种算法特点进行了分析和改进,对基于改进后的算法建立的语音识别系统进行了性能评估和对比。
一、语音识别算法
(一)动态时间归整算法
发音具有随机性,同一个人在不同时间,不同场合对同一
摘自:7彩论文网写毕业论文经典的网站http://www.7ctime.com个字的发音长度都不是完全一样的。在语音识别的模版匹配中,这些长度不一的发音将降低系统的识别率。为了解决这一问题,我们引入动态时间归整算法(Dynamic Time Warping,DTW)。在语音识别中,DTW算法是较早出现,较为经典的算法,它是基于动态规划(DP)的。
提取参考语音信号的特征参数存入特征模板库建立参考模板,提取待识别语音号的特征参数建立测试模板。DTW算法就是计算参考模板和测试模板各帧矢量之间的距离之和,总距离越小说明相似度越高,最后选取最小的总距离作为匹配结果。
这种识别算法虽然较为简单、有效,但是计算量大,存储空间占用多,响应时间长。因此,文中对该算法进行改进,以避免以上缺点。
改进后的DTW算法将归整函数限制在一个平行四边形中(其中两条边的斜率为1/2,另外两条边的斜率为2)。在计算总距离时只需计算平行四边形之内各交点的匹配距离和累积距离,这样减少了计算量,提高了系统的反应速度,节省了存储空间。
(二)隐马尔可夫算法
隐马尔可夫模型是在马尔可夫链基础上发展起来的一种语音信号统计模型,自从用来描述语音信号后,该模型迅速发展,使得HMM理论逐渐成为语音研究中的热点,语音识别的主流技术。
隐马尔可夫模型HMM是一个双重随机过程,一重是可直接观测的马尔可夫链,用于描述状态的转移;另一重是隐含在观察序列中的随机过程,用于描述状态和观察值之间的统计对应关系。
将HMM用于语音识别系统前,必须解决三个基本问题[3]:
1.模型评估
已知一个观察序列和一个HMM模型,如何计算由此模型产生此观察符号序列的输出概率。
2.最优状态序列搜索
已知一个观察序列和一个HMM模型,如何确定一个最佳状态序列,使之产生的观察序列的概率最大。
3.模型训练
已知一个观察序列和一个HMM模型,如何根据观察序列来确定模型的参数。
针对以上三个问题,可分别用前向-后向算法,Viterbi算法和Baum-Welch算法改进,改进后的HMM算法较传统算法在识别率方面有了明显的提高。
(三)算法比较
基于模版匹配技术的DTW算法和基于随机过程理论的HMM算法是比较有代表性的孤立词识别算法。DTW算法应用动态规划的方法解决了语音信号特征参数序列时间对准问题,克服了语速的差异。DTW算法适用于训练样本较少的情况下,训练过程简单,识别过程较复杂,多用于特定人孤立词语音识别系统。
HMM算法HMM运用状态序列描述观测向量的时间逻辑,通过多变量混合高斯分布表现观测向量序列的空间分布[4]。为了获得高识别率,HMM算法需要大量的训练样本和存储量,训练过程要耗费较多时间,识别过程较简单,多用于连续大词汇量语音识别系统。
二、系统设计实现
语音识别系统由预处理、特征提取、模型库和模式匹配等四个基本单元构成。系统的基本结构如图1所示:
(一)预处理
通过话筒将语音信号变成电信号输入到语音识别系统中。首先对信号进行一系列的预处理,包括采样、量化、加窗、端点检测、预加重等。
采样和量化就是将离散信号分别在时间上和幅度上转化成离散形式。为了滤除低频干扰,提升信号高频部分,对信号进行预加重处理。由于系统对信号的处理都是以短时为前提的,这就要将信号分割成许多语音段,即对语音信号分帧、加窗处理。原始语音信号往往包含无音段和有音段,端点检测就是运用数字处理技术来判断各语音段的起点和终点,从而找到有用的语音成分。文中使用基于短时能量和短时平均过零率的检测方法判定语音信号的起始点和终止点,即双门限比较法。
(二)提取特征参数
经过预处理的语音信号中并不是所有信息都是有用的,这就需要将语音信号经过一次变换,去掉冗余部分,提取代表语音本质的特征参数。文中采用近年来运用比较广泛的Mel频率倒谱参数,先将频谱转变为美尔频标的非线性频谱,接着再转换到倒谱域上[6]。MFCC参数充分考虑了人耳的听觉特性,有很高的稳健性和抗噪性能。
(三)模式匹配算法
1. DTW算法
将提取的语音特征参数与语音库中的数据按照DTW算法进行匹配。在使用DTW算法进行模型匹配之前,首先提取个人语音样本,提取特征参数建立语音库作为参考模型,然后计算待识别的语音信号的特征参数作为测试模型和参考模型。最后计算所有测试模型和参考模型的距离,选取最小距离对应的语音信号即为识别结果。2. HMM算法
语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM[7]。
文中采用性价比较高的Viterb
论文写作技巧