数字语音信号处理学习笔记——语音信号的短时时域分析(4)

3.7 基于能量和过零率的语音端点检测      

        在复杂的应用环境下,从信号流中分辨出语音信号和非语音信号,是语音处理的一个基本问题。语音端点检测就是指从包含语音的一段信号中确定出语音的起始点和结束点。正确的端点检测对于语音识别和语音编码系统都有重要的意义,它可以使采集的数据真正是语音信号的数据,从而减少数据量和运算量并减少处理时间。

      判别语音段的起始点和终止点的问题主要归结为区别语音和噪声的问题。如果能够保证系统的输入信噪比很高(即使最低电平的语音的能量也比噪声能量要高),那么只要计算输入信号的短时能量就基本能够把语音段和噪声背景区别开来。但是,在实际应用中很难保证这么高的信噪比,仅仅根据能量来判断是比较粗糙的。因此,还需进一步利用短时平均过零率进行判断,因为清音和噪声的短时平均过零率比背景噪声的平均过零率要高出好几倍。这次主要介绍基于能量和过零率的语音端点检测方法——两级判别法。

      两级判别法采用双门限比较法,如图:

      数字语音信号处理学习笔记——语音信号的短时时域分析(4)_第1张图片

      第一级判决:

      1.先根据语音短时能量的轮廓选取一个较高的门限T1,进行一次粗判:语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外(即AB段之外)。

      2.根据背景噪声的平均能量确定一个较低的门限T2,并从A点往左、从B点往右搜索,分别找到短时能量包络与门限T2相交的两个点C和D,于是CD段就是用双门限方法根据短时能量所判定的语音段。

      第二级判决:

     以短时平均过零率为标准,从C点往左和从D点往右搜索,找到短时平均过零率低于某个门限T3的两个点E和F,这便是语音段的起止点。门限T3是由背景噪声的平均过零率所确定的。

     这里要注意,门限T2,T3都是由背景噪声特性确定的,因此,在进行起止点判决前,通常都要采集若干帧背景噪声并计算其短时能量和平均过零率,作为选择T2和T3的依据。当然,T1,T2,T3,三个门限值的确定还应当通过多次实验。

3.8 基音周期估值

       基音周期是表征语音信号本质特征的参数,属于语音分析范畴,只有准确分析并且提取出语音信号的特征参数,才能够利用这些参数进行语音编码、语音合成和语音识别等处理。语音编码的压缩率高低、语音合成的音质好坏及语音识别率的高低,也依赖于语音信号分析的准确性和精确性。因此基音周期估值在语音信号处理应用中具有十分重要的作用。语音信号基音周期估值的方法很多,最基本的方法有:基于短时自相关法的基音周期估值和基于短时平均幅度差函数的基音周期估值。

基于短时自相关法的基音周期估值:

       如果x(n)是一个周期为P的信号,则其自相关函数也是周期为P的信号,且在信号周期的整数倍处,自相关函数取最大值。语音的浊音信号具有准周期性,其自相关函数在基音周期的整数倍处取最大值。计算两相邻最大峰间的距离,就可以估计出基音周期。观察浊音信号的自相关函数图,其中真正反映基音周期的只是其中少数几个峰,而其余大多数峰都是由于声道的共振特性引起的。因此,为了突出反映基音周期的信息,同时压缩其他无关信息,减少运算量,有必要对语音信号进行适当预处理后再进行自相关计算以获得基音周期。

基于短时平均幅度差函数AMDF法的基音周期估值:

       如果信号x(n)是标准的周期信号,则相距为周期的整数倍的样点上的幅度值是相等的,二者差值为零。对于浊音语音,在基音周期的整数倍上,这个差值不是零,但总是很小,因此,我们可以通过计算短时平均幅度差函数中两相邻谷值间的距离来进行基音周期估值。

基音周期估值的后处理:

       语音信号中的浊音信号的周期性从波形上观察可以看得很明显,但是其形状比较复杂,这使得基音检测算法很难做到处处准确可靠。在提取基音的过程中,无论采用哪种方法提取的基音频率轨迹与真实的基音频率轨迹都不可能完全吻合。实际情况是大部分段落吻合,而在一些局部段落和区域中有一个或几个基音频率估计值偏离,甚至远离正常轨迹,通常是偏离到正常值的2倍或1/2处,即实际基音频率的倍频或分频处,称这种偏离点为基音轨迹的“野点”。

       为了去除这些“野点”,对求得的基音轨迹进行平滑后处理是非常必要的。语音信号的基频通常是连续缓慢变化的,因此,用某种平滑技术来纠正这些“野点”是可以的。常用的平滑技术主要有:中值滤波平滑处理、线性平滑、动态规划平滑处理。

        










你可能感兴趣的:(Speech,Signal,Processing)