语音识别学习日志 2018-7-15 语音识别基础知识准备(1)

2018-7-15

频谱

频谱是频率谱密度的简称,是频率的分布曲线

声音的构成

声音频率决定音调;声音振幅决定大小;声音谐波决定音色。之所以能分辨出不同乐器和不同人,只因为声音中谐波成份不同。

听感音高(声音音高)

音高指各种不同高低的声音,即音的高度,音的基本特征的一种。音的高低是由振动频率决定的,两者成正相关关系:频率(即单位时间内振动次数的多少)高则音"高",反之则"低"。

听觉响度(声音响度)

又称音量。人耳感受到的声音强弱,它是人对声音大小的一个主观感觉量。响度的大小决定于声音接收处的波幅,就同一声源来说,波幅传播的愈远,响度愈小;当传播距离一定时,声源振幅愈大,响度愈大。响度的大小与声强密切相关,但响度随声强的变化不是简单的线性关系,而是接近于对数关系。当声音的频率、声波的波形改变时,人对响度大小的感觉也将发生变化。

声道

Sound Channel,是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。

谐波

harmonicwavelength,是一个数学或物理学概念,是指周期函数或周期性的波形中能用常数、与原函数的最小正周期相同的正弦函数和余弦函数的线性组合表达的部分

共振峰

共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道的物理特征。

线性预测

linearprediction,根据随机信号过去的p个已知抽样值序列Tn-1Tn-2…Tn-p,预测现时样值Tn的估计值的方法。预测公式是一个线性方程,所以这种预测称为线性预测。

LPC

线性预测编码,LPC通过分析话音波形来产生声道激励和转移函数的参数,对声音波形的编码实际就转化为对这些参数的编码,这就使声音的数据量大大减少

其核心思想是利用输入信号u和历史输出信号s的线性组合来估计输出序列s(n)

-过滤器模型、元音、辅音

参考人声的产生,气流从肺部出来,通过声带产生震动,形成声源激励。声源路经由声道构成的过滤器,输出最终的语音信号。声带只有在输出浊音时才震动,此时声源激励为准周期信号,也称为声门脉冲,其频谱呈单调递减的趋势。声道的频谱特性可由共振峰表征,在频谱上表现为各峰值。输出语音的频谱特性为前两者频谱的叠加。

上述的语音产生模型也称为源-过滤器模型(Source-Filter Model),声带震动产生的准周期信号为源,声道为过滤器。然而在真实的语音产生过程中,声带具有震动和不震动两种模式。当声带震动时,产生浊音(voiced sound),此时声源为准周期脉冲信号,模拟声带的周期震动,元音多为此类;当声带不震动时,产生清音(unvoiced sound),此时声源为白噪声随机信号,模拟气体紊流与摩擦,辅音多为此类。

LPCC

线性预测系数(LPCC):很好的模拟语音信号,语音信号是由声带振动发出的, 声带可以不振动也可以有周期的振动,分别对应清音(consonants)和浊音(vowels),每一段声管则对应一个 LPC 模型的极点。通常极点个数在 12-16 个左右,即可清晰地描述信号的特征了。

MFCC

Mel频率倒谱系数(MFCC),人的听觉系统是一种特殊的非线性系统,它对不同频率信号的响应灵敏度有较大区别。 MFCC参数比 LPC 参数更能够充分利用人耳的感知特性提高系统的识别性能,因其良好的抗噪性和鲁棒性而应用广泛

sphinx中也是用MFCC特征的,用帧frames去分割语音波形,每帧大概10ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的MFCC特征,用特征向量来表示。

Sphinx

CMU Sphinx(简称Sphinx)是美国卡内基梅隆大学开发的一系列语音识别系统的总称。在2000年,卡内基梅隆的Sphinx小组致力于开源几个语音识别器组件,包括Sphinx 2和后来的Sphinx 3(2001年)。 语音解码器带有声学模型和示例应用程序。

 

 

 

 

 

 

你可能感兴趣的:(ASR)