语音信号处理2 ----- 预处理

文章目录

  • 预加重
  • 分帧
  • 加窗
  • 泄露/频谱泄露
  • reference

语音信号处理2 ----- 预处理_第1张图片

预加重

--
  预加重是语音信号处理的前提,主要目的是提升语音信号中的高频分量。
  人的发生系统是从肺开始,肺作为能量源,气流通过声带,引发周期性震动(元音),能量经过咽、口腔、唇、舌, 形成最后的声音。元音能量主要集中在1KHz以下,并且以6dB/十倍频的速度下降。辅音一般不引起声带振动,频率更高。其中口唇辐射对低频影响比较小,但是对高频段影响比较大, 预加重就是为了消除这种影响,提升高频分量。
  在语音信号中,提升高频分量的目的主要是因为高频分量(即辅音)包含了更多的信息,而元音的频率普遍较低。功率谱随频率的增加而减小,其大部分能量集中在低频范围内。这就造成消息信号高频端的信噪比可能降到不能容忍的程度。
  总之,预加重保持信号的低频部分不变,提升信号的高频部分;而去加重衰减信号的低频部分,保持高频部分。预加重/去加重的目的都是提升信号中高频部分的能量,以补偿信道对高频部分衰减过大。
传递函数:
  H(z) = 1 - α \alpha α z-1
设n时刻的语音采样值为x(n),经过预加重处理后的结果为:
  y(n) = x(n) - α \alpha α y(n-1) ,0.9 < α \alpha α < 1




分帧

--
  从宏观上看,语音信号是一个非平稳信号,信号(信号对应的特征及其参数)每时每刻都在变化。但是根据人体的发声机理来看,肌肉的运动过程(主要是口腔肌肉变化、唇舌的位置变化)相对于信号的变化是非常缓慢的,因此,从很短的时间段上,又可以认为语音信号时准平稳信号,即短时平稳信号。
  基于此,语音信号处理的全过程都是基于短时平稳这一概念,这一个很短的时间段一般可取10ms ~ 30ms, 语音信号的处理都可以建立在这样的一个个小的时间段上,这个时间段就是“帧”的概念。
分帧,就是讲语音信号处理成一个个小的时间段,对语音信号进行处理。帧包含的数据点的数目(或者对应的时间长度)就是“帧长”。
  但是,如果把语音信号直接按帧长切分,信心分析之后,帧与帧的连接处容易出现数据的剧烈变化,因此一般的处理方法是,帧与帧之间保持一个重叠(overlap), 即下一帧的起始在当前帧的内部,这一段移动距离称为“帧移”(inc)。
  分帧之后的分析是通过加窗实现的,窗的长度一般等于帧长(不是绝对的)。关于overlap,窗函数较多的都是钟形的,中间高两边低,如果帧与帧之间是首位相连的, 窗函数与信号相乘,必定一帧的首尾信号被削弱甚至是消失。针对这种情况,可以使帧与帧之间有部分重叠,这样就可以保证减少信号的丢失。
  
  分帧帧数计算为:
  N = (L - win_size) / inc + 1,    L表示信号长度,win_size表示窗长或者帧长, inc表示帧移。 其中除法向上取整。
语音信号处理2 ----- 预处理_第2张图片

加窗

--
  语音信号短时分析的分帧,是通过加窗得到的。加窗分析之后得到的是一个特征参数序列组成的序列。加窗可以加载时域上,也可以加载频域上,主要还是在时域上进行分析。
  窗函数主要有矩形窗、汉明窗、汉宁窗。
  简单的分帧难以确保信号的周期性截断、而信号的非周期性截断会带来频谱泄漏(对于频率是F的信号,分帧分析之后应该只在频率F处有能量,其他频率分量能量为0, 但是由于非周期性截断,导致在其他频率分量上也有能量,即可以看做频率从F处泄露出去了 )。 但是频谱泄露是不可避免的, 为了尽量减少泄露带来的影响,可以对语音信号加窗。

语音信号处理2 ----- 预处理_第3张图片

矩形窗的主瓣宽度小于汉明窗,具有较高的频谱分辨率,但是矩形窗的旁瓣峰值较大,因此其频谱泄漏比较严重。相比较,虽然汉明窗的主瓣宽度较宽,约大于矩形窗的一倍,但是它的旁瓣衰减较大,具有更平滑的低通特性,能够在较高的程度上反映短时信号的频率特性。

所以选择合适的窗函数要考虑以下两个方面:
(1)窗口的形状
一个好的窗函数的标准是:在时域内语音波形乘以窗函数,要减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使截取出的语音波形缓慢降为零,减小语音帧的截断效应;在频域要有较宽的3dB带宽以及较小的边带最大值。
(2)窗口的长度
如果长度很大,则它等效于很窄的低通滤波器,语音信号通过时,反映波形细节的高频部分被阻碍,短时能量随时间变化很小,不能真实地反映语音信号的幅度变化:反之,长度太短时,滤波器的通带变宽,短时能量随时间有急剧的变化,不能得到平滑的能量函数。通常认为在一个语音帧内应包含1-7个基音周期。然而不同人的基音周期变化很大,从女性和儿童的2ms到老年男子的14 ms(即基音频率的变化范围为500-70 Hz),所以N的选择比较困难。通常在10kHz取样频率下,N折中选择为100-200点较合适(即 10-20 ms 持续时
原文链接




泄露/频谱泄露

见reference




reference

  • 语音预加重
  • 希腊字母表MarkDown
  • 预加重的原理是什么?
  • 什么是预加重/去加重?
  • 为什么对语音信号预加重?
  • 语音分帧加窗
  • 什么是泄露?
  • 语音信号处理(四)—加窗
  • 语音信号处理基础(五)——语音分帧与加窗
  • 数字语音信号处理学习笔记——语音信号的短时时域分析(1)
  • 语音识别之特征提取
  • 北邮信号与系统-预加重与去加重

你可能感兴趣的:(语音信号处理,信号处理)