语音信号处理的一些基础知识

人耳的听觉掩蔽效应

一般人可以感觉到20Hz-20kHz,强度为5dB-130dB。
人耳的掩蔽效应:在一个强信号附近,弱信号将变得不可闻,被掩蔽掉了。被掩蔽的不可闻信号的最大声压级称为掩蔽门限或者掩蔽阈值

语音信号处理的一些基础知识_第1张图片

语音信号生成的模型

理想的模型是线性时不变的,但是语音信号是非平稳的随机过程,其特征是随着时间变化的,所以模型的参数也是随着时间变化的。但是语音信号随着时间变化是缓慢的,所以可以做一些合理的假设,将语音信号分为一些相继的短段进行处理,在这些段中我们可以认为语音信号特征是不随着时间变化的平稳随机过程。这样在这些短暂时间内表示的语音信号,可以采用线性时不变模型来分析。也被称为“短时分析技术”。

语音信号被看成是线性时不变系统(声道)在随机噪声或准周期脉冲序列激励下的输出。其生成的数学模型可由三部分共同作用在声波上产生:

  • 声门产生的激励模型G(z)——激励系统
  • 声道产生的调制函数V(z)——声道系统
  • 嘴唇产生的辐射函数R(z)——辐射系统

语音信号的传递有这三个函数级联而成:
语音信号处理的一些基础知识_第2张图片

激励模型

激励模型一般分为浊音激励和清音激励,来分开讨论。

浊音

发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波,这种脉冲波类似与斜三角形的脉冲。这种产生的脉冲串周期称为“基音周期”,其倒数即为基音频率。

清音

发清音时,如果声带是完全舒展开来的,则肺部发出的空气流将不受影响的通过声门。通过声门之后,通过声道某一部分的控制有两种情况,一是发阻塞音,二是发摩擦音。因此,可以把清音激励模拟成随机白噪声(均值为0,方差为1)。

简单地把激励分为浊音和清音不全面!实际上,对于浊辅音,尤其是浊擦音,即使把两种激励进行简单的叠加也是不行的。

声道模型

关于声道部分的数学模型,有多种观点,目前最常用的有两种建模方法。一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。

共振峰模型:把声道视为一个谐振腔。共振峰就是这个腔体的谐振频率。由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。

声道模型有串联型、并联型、混合型关于数学模型暂不介绍。

辐射模型

由辐射引起的能量损耗正比于辐射阻抗的实部R(z),其频响曲线表现出一阶高通滤波器的特性。在实际信号分析时,常用所谓预加重技术。这样,模型只剩下声道部分,对参数分析就方便了。在语音合成时再进行解加重处理。

语音信号的数学模型

综上所述,完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。它的传输函数可以表示为:
在这里插入图片描述
G(z)是激励信号,浊音时G(z)是声门脉冲即斜三角形脉冲序列的z变换;在清音的情况下,G(z)是一个随机噪声的z变换。V(z)是声道传输函数,既可用声管模型,也可以共振峰模型等来描述。
语音信号处理的一些基础知识_第3张图片
上式所示模型的内部结构并不和语音产生的物理过程相一致,但这种模型和真实模型在输出处是等效的。另外,这种模型是“短时”的模型,因为一些语音信号的变化是缓慢的,例如元音在10-30ms内其参数可假定不变。这里声道转移函数是一个参数随时间缓慢变化的模型。另外,这一模型认为语音是声门激励源激励线性系统—声道所产生的。

待续……

你可能感兴趣的:(语音信号处理,语音,信号处理)